KHコーダーの使い方 ― インストール方法データの読み込み共起ネットワーク図

KH Coderは、立命館大学の先生が作成し無料で提供しているソフトウェア。

特に、図示表現が秀逸。

難しいこと抜きでパッときれいな図ができる。

＞＞もう統計で悩むのを終わりにしませんか？

↑1万人以上の医療従事者が購読中

KHコーダーのインストール方法
KHコーダーのダウンロードとインストール【動画】
KHコーダーの使い方
まとめ
KHコーダーオフィシャルブック
KHコーダーオフィシャルブックII
関連記事
- KHコーダー抽出語の解析方法 - 実践編
- 抽出語間の距離の計算とクラスタリング - 方法論

KHコーダーのインストール方法

Windows版パッケージを以下のリンク先からダウンロードしてダブルクリック！

最新版ダウンロード

自己解凍型ファイルになっている。Unzipをクリックして解凍する。

f:id:toukeier:20181012223235p:plain

以下のダイアログボックスが出れば、解凍完了。OKをクリック。

f:id:toukeier:20181012223505p:plain

デスクトップにできたKH Coderフォルダをダブルクリックして、そのなかのkh_coder.exeをダブルクリックで起動。

f:id:toukeier:20181012223722p:plain

KHコーダーのダウンロードとインストール【動画】

youtu.be

＞＞もう統計で悩むのを終わりにしませんか？

↑1万人以上の医療従事者が購読中

KHコーダーの使い方

とても丁寧なチュートリアルスライドがある。

KH Coderチュートリアル

ここでは、言葉の抽出と分析法の一つ共起ネットワーク図の描き方について紹介する。

テキストデータの読み込みから言葉の抽出まで

テキストデータはぼくのTwitterのTweetsを使ってみる。Retweet（RT）を合わせて1000 tweets 強のデータ。

TwitterのTweetsを読み込む

KH Coderを起動すると最初の画面は以下のようになる。

f:id:toukeier:20181014094615p:plain

メニューのプロジェクトから新規を選ぶ。

f:id:toukeier:20181014094732p:plain

すると以下のウィンドウが開く。

f:id:toukeier:20181014094704p:plain

参照をクリックしてTweetsのCSVファイルを選択する。

f:id:toukeier:20181014112809p:plain

分析対象とする列をクリックしてtextに変更する。

f:id:toukeier:20181014095310p:plain

言語のChaSen（茶筌）をクリックしてMeCab（和布蕪）を選択。ぼくはRでMeCabを使っている関係上、MeCabを使用する。ChaSenのほうが古くから有名。

f:id:toukeier:20181014095445p:plain

ChaSenとは？

chasen-legacy.osdn.jp

MeCabとは？

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

メモ欄にプロジェクトの説明をつけてOKをクリック。

f:id:toukeier:20181014100600p:plain

言葉の抽出はどうやる？

前処理から分析対象ファイルのチェックを選択。

f:id:toukeier:20181014100755p:plain

時間がかかるという警告が出るがひるまずOKを押す。1000 tweets あまりが、6秒だった。

f:id:toukeier:20181014100955p:plain

問題があると以下のように表示される。問題がなかった場合は、問題なしと表示されるだけだ。画面に表示をクリックすると問題が含まれるデータが表示される。

f:id:toukeier:20181014101340p:plain

右下の分析対象ファイルの自動修正の実行をクリックすれば、自動で修正してくれる。閉じるをクリックして次の手順に進む。

f:id:toukeier:20181014113439p:plain

前処理メニューから前処理の実行を選択。

f:id:toukeier:20181014101957p:plain

また時間がかかるかもしれない警告が出るがひるまずOKをクリックする。

f:id:toukeier:20181014102139p:plain

今度はそこそこ時間がかかりそうな予感がするお知らせが表示される。

f:id:toukeier:20181014102210p:plain

25秒で終了した。

f:id:toukeier:20181014102232p:plain

総抽出語が53,379語であったことがわかる。

f:id:toukeier:20181014102416p:plain

抽出語のリストを見てみる

ツールから抽出語→抽出語リストを選択する。

f:id:toukeier:20181014102545p:plain

多い順にリストアップされる。12番の知るの右には＋の記号がついていて、クリックすると展開されて、知るの活用形がリストアップされる。

知らなかった、とか、初めて知った、とか、知ることが大事、とか、知りました、とか、知ろう、とか。全部まとめると105回登場した。

f:id:toukeier:20181014103010p:plain

KHコーダーのテキストファイルの読み込みと言葉の抽出【動画】

youtu.be

KHコーダーで共起ネットワーク図はどうやって描くか？

どんな言葉が一緒にTweetされているかを図示する方法。

ツールから抽出語→共起ネットワークを選択する。

f:id:toukeier:20181014103622p:plain

オプションをいろいろと変更できる。最初はそのまま何もいじらずOKをクリック。

f:id:toukeier:20181014103950p:plain

下のような図が表示される。これが共起ネットワーク図だ。

一緒のTweetに含まれていた言葉を、つながりと頻度によって、色分けと円の大きさで表したもの。一連のつながりは同じ色で表示され、円の大きさは出現頻度を表している。

T、RT、Co、httpsは最大勢力だが、Tweetに自動で含まれてしまう略号類だ。これを除外してもう一度描いてみる。

f:id:toukeier:20181014105006p:plain

除外したい略号類は、すぐ下の「犬」266回よりも多く現れているので、先ほどのオプションのウィンドウで最大出現数を300にする。

f:id:toukeier:20181014104725p:plain

f:id:toukeier:20181014104344p:plain

今度は先ほどと比べ低頻度の言葉も大きく、たくさん表示された。

大きく分類すると、介助犬のこと、盲導犬のこと、障害自体のこと、ヘルプマークのことがRetweet含めTweetされていることがわかる。

f:id:toukeier:20181014104844p:plain

KHコーダーで共起ネットワーク図を描くには？【動画】

youtu.be

まとめ

KH Coderの使い方をTwitterのTweetを使って簡単に紹介した。

テキストデータを読み込んで、前処理をして、抽出語の確認と共起ネットワークの描くところまでを記載した。

KH Coderは簡単・便利で、きれいな出力が得られる、無料で最強のテキストマイニングソフトウェアと言える。

いいソフトウェアに出会った。

KHコーダーオフィシャルブック

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して【第2版】 KH Coder オフィシャルブック

作者:樋口耕一
ナカニシヤ出版

Amazon

KHコーダーオフィシャルブックII

動かして学ぶ! はじめてのテキストマイニング: フリー・ソフトウェアを用いた自由記述の計量テキスト分析 KH Coder オフィシャルブック II (KH Coder OFFICIAL BOOK 2)

作者:樋口耕一,中村康則,周景龍
ナカニシヤ出版

Amazon

以下は、関連記事の列挙。よければ、ぜひ。

KHコーダー抽出語の解析方法 - 実践編

toukeier.hatenablog.com

抽出語間の距離の計算とクラスタリング - 方法論

toukeier.hatenablog.com

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して【第2版】 KH Coder オフィシャルブック

作者:樋口耕一
ナカニシヤ出版

Amazon

作者:樋口耕一,中村康則,周景龍
ナカニシヤ出版

Amazon

統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

KHコーダーの使い方 ― インストール方法データの読み込み共起ネットワーク図

KHコーダーのインストール方法

KHコーダーのダウンロードとインストール【動画】

KHコーダーの使い方

テキストデータの読み込みから言葉の抽出まで

TwitterのTweetsを読み込む

言葉の抽出はどうやる？

抽出語のリストを見てみる

KHコーダーのテキストファイルの読み込みと言葉の抽出【動画】

KHコーダーで共起ネットワーク図はどうやって描くか？

KHコーダーで共起ネットワーク図を描くには？【動画】

まとめ

KHコーダーオフィシャルブック

KHコーダーオフィシャルブックII

関連記事

KHコーダー抽出語の解析方法 - 実践編

抽出語間の距離の計算とクラスタリング - 方法論

KHコーダーのインストール方法

KHコーダーのダウンロードとインストール【動画】

KHコーダーの使い方

テキストデータの読み込みから言葉の抽出まで

TwitterのTweetsを読み込む

言葉の抽出はどうやる？

抽出語のリストを見てみる

KHコーダーのテキストファイルの読み込みと言葉の抽出【動画】

KHコーダーで共起ネットワーク図はどうやって描くか？

KHコーダーで共起ネットワーク図を描くには？【動画】

まとめ

KHコーダー オフィシャルブック

KHコーダー オフィシャルブックII

関連記事

KHコーダー 抽出語の解析方法 - 実践編

抽出語間の距離の計算とクラスタリング - 方法論

KHコーダーオフィシャルブック

KHコーダーオフィシャルブックII

KHコーダー抽出語の解析方法 - 実践編