テキストマイニングはKH Coderがおすすめ!

にほんブログ村 科学ブログ 数学へ

KH Coderは、立命館大学の先生が作成し無料で提供しているソフトウェア。

特に、図示表現が秀逸。

難しいこと抜きでパッときれいな図ができる。

 

KH Coderのインストール方法

Windows版パッケージを以下のリンク先からダウンロードしてダブルクリック!

最新版ダウンロード

 

自己解凍型ファイルになっている。Unzipをクリックして解凍する。

f:id:toukeier:20181012223235p:plain

 

以下のダイアログボックスが出れば、解凍完了。OKをクリック。

f:id:toukeier:20181012223505p:plain

 

デスクトップにできたKH Coderフォルダをダブルクリックして、そのなかのkh_coder.exeをダブルクリックで起動。

f:id:toukeier:20181012223722p:plain

KH Coderの使い方

とても丁寧なチュートリアルスライドがある。

KH Coderチュートリアル

ここでは、言葉の抽出と分析法の一つ共起ネットワーク図の描き方について紹介する。

テキストデータの読み込みから言葉の抽出まで

テキストデータはぼくのTwitterのTweetsを使ってみる。Retweet(RT)を合わせて1000 tweets 強のデータ。

TwitterのTweetsを取得する方法はこちら。

 

toukeier.hatenablog.com

 

TwitterのTweetsを読み込む

KH Coderを起動すると最初の画面は以下のようになる。

f:id:toukeier:20181014094615p:plain

 

メニューのプロジェクトから新規を選ぶ。

f:id:toukeier:20181014094732p:plain

 

すると以下のウィンドウが開く。

f:id:toukeier:20181014094704p:plain

 

参照をクリックしてTweetsのCSVファイルを選択する。

f:id:toukeier:20181014112809p:plain

 

分析対象とする列をクリックしてtextに変更する。

f:id:toukeier:20181014095310p:plain

 

言語のChaSen(茶筌)をクリックしてMeCab(和布蕪)を選択。ぼくはRでMeCabを使っている関係上、MeCabを使用する。ChaSenのほうが古くから有名。

f:id:toukeier:20181014095445p:plain

ChaSenとは?

chasen-legacy.osdn.jp

MeCabとは?

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

 

メモ欄にプロジェクトの説明をつけてOKをクリック。

f:id:toukeier:20181014100600p:plain

 

言葉の抽出はどうやる?

前処理から分析対象ファイルのチェックを選択。

f:id:toukeier:20181014100755p:plain

 

時間がかかるという警告が出るがひるまずOKを押す。1000 tweets あまりが、6秒だった。

f:id:toukeier:20181014100955p:plain

 

問題があると以下のように表示される。問題がなかった場合は、問題なしと表示されるだけだ。画面に表示をクリックすると問題が含まれるデータが表示される。

f:id:toukeier:20181014101340p:plain

 

右下の分析対象ファイルの自動修正の実行をクリックすれば、自動で修正してくれる。閉じるをクリックして次の手順に進む。

f:id:toukeier:20181014113439p:plain

 

前処理メニューから前処理の実行を選択。

f:id:toukeier:20181014101957p:plain

 

また時間がかかるかもしれない警告が出るがひるまずOKをクリックする。

f:id:toukeier:20181014102139p:plain

 

今度はそこそこ時間がかかりそうな予感がするお知らせが表示される。

f:id:toukeier:20181014102210p:plain

 

25秒で終了した。

f:id:toukeier:20181014102232p:plain

 

総抽出語が53,379語であったことがわかる。

f:id:toukeier:20181014102416p:plain

 

抽出語のリストを見てみる

ツールから抽出語→抽出語リストを選択する。

f:id:toukeier:20181014102545p:plain

 

多い順にリストアップされる。12番の知るの右には+の記号がついていて、クリックすると展開されて、知るの活用形がリストアップされる。

知らなかった、とか、初めて知った、とか、知ることが大事、とか、知りました、とか、知ろう、とか。全部まとめると105回登場した。

f:id:toukeier:20181014103010p:plain

 

共起ネットワーク図はどうやって描くか?

どんな言葉が一緒にTweetされているかを図示する方法。

 

ツールから抽出語→共起ネットワークを選択する。

 

f:id:toukeier:20181014103622p:plain

 

オプションをいろいろと変更できる。最初はそのまま何もいじらずOKをクリック。

f:id:toukeier:20181014103950p:plain

 

下のような図が表示される。これが共起ネットワーク図だ。

一緒のTweetに含まれていた言葉を、つながりと頻度によって、色分けと円の大きさで表したもの。一連のつながりは同じ色で表示され、円の大きさは出現頻度を表している。 

T、RT、Co、httpsは最大勢力だが、Tweetに自動で含まれてしまう略号類だ。これを除外してもう一度描いてみる。

f:id:toukeier:20181014105006p:plain

 

除外したい略号類は、すぐ下の「犬」266回よりも多く現れているので、先ほどのオプションのウィンドウで最大出現数を300にする。

f:id:toukeier:20181014104725p:plain

 

f:id:toukeier:20181014104344p:plain

 

今度は先ほどと比べ低頻度の言葉も大きく、たくさん表示された。

大きく分類すると、介助犬のこと、盲導犬のこと、障害自体のこと、ヘルプマークのことがRetweet含めTweetされていることがわかる。

f:id:toukeier:20181014104844p:plain

 

まとめ

KH Coderの使い方をTwitterTweetを使って簡単に紹介した。

テキストデータを読み込んで、前処理をして、抽出語の確認と共起ネットワークの描くところまでを記載した。

KH Coderは簡単・便利で、きれいな出力が得られる、無料で最強のテキストマイニングソフトウェアと言える。

いいソフトウェアに出会った。