外向きのブログ

ゆきりんのR勉強日記 DAY4「LINEトークをテキストマイニング」

先日、6年近く使っていたLINEアカウントを消しました。
その際トーク履歴も消えてしまいますが、「トーク履歴を送信」から、私とわりとやり取りしていた人を任意に抽出してtxtファイルにしました。

思い出をとっておきたかったのはありますが、テキストマイニングするためです。

f:id:yukiringam:20180123042207p:plain

プライバシーのため隠してあります。

LINEトークでは日時、名前などがテキストファイルだと表示されますが、これはテキストマイニングにおいては消去。(スタンプ)とか記号も同じく消去です。

ではいきましょー!まず、MeCabを立ち上げます。ファイルline_talk.txtを開きます。ちなみにPCはMac

library(RMeCab)
docDF.result <- docDF("/Users/名前/documents/R/line_talk.txt", type = 0)
file_name =  /Users/名前/documents/R/line_talk.txt opened
number of extracted terms = 768
now making a data frame. wait a while!

とりあえず頻出語10個表示してみます。

head(docDF.result, 10)
   Ngram line_talk.txt
1      (             1
2      *             2
3      .             2
4      A             1
5      B             3
6      E             6
7      F             1
8      G             1
9      I             4
10     L             6

こうなりました。記号とり忘れてるやんけ
と思いきや、( はそうだけど、*は絵文字かも…?

今度は形容詞に絞って抽出してみます。

docDF.result.2 <- docDF("/Users/名前/documents/R/line_talk.txt", type = 1, pos = c("形容詞"))
file_name =  /Users/名前/documents/R/line_talk.txt opened
number of extracted terms = 53
now making a data frame. wait a while!

head(docDF.result.2, 10)
         TERM   POS1   POS2 line_talk.txt
1  ありがたい 形容詞   自立             2
2        いい 形容詞   自立             5
3        いい 形容詞 非自立            10
4      うまい 形容詞   自立             1
5    うれしい 形容詞   自立             2
6  おもしろい 形容詞   自立             2
7      すごい 形容詞   自立             2
8      っぽい 形容詞   接尾             3
9      つらい 形容詞   自立             3
10       ない 形容詞   自立            26

こうなりました。私こんな「ありがたい」って言ってましたっけ・・・?


大した発見がありませんでしたが、今日はこの辺で終わり(⁎˃ᴗ˂⁎)