階層的クラスター分析を KH Coder で行う方法
KH Coderとクラスター分析 - 前提知識
KH Coderは無料で使えるテキストマイニングソフトである。
詳しくは過去記事を参照。
https://toukeier.hatenablog.com/entry/2018/10/14/113839toukeier.hatenablog.com
クラスター分析は、要素間の「距離」を計算して、近い者同士を結び付ける分析方法。
階層的クラスター分析は、クラスター間により近い、比較的遠いの階層がある分析方法である。
クラスター分析については、以下の過去記事を参照。
https://toukeier.hatenablog.com/entry/2019/05/12/204830toukeier.hatenablog.com
階層的クラスター分析の過去記事も参考に。
KH Coderで階層的クラスター分析を行うには?
データの前処理が終わった段階として、話を進める。
データの前処理が終わっていなければ、前述の過去記事を参照。
https://toukeier.hatenablog.com/entry/2018/10/14/113839toukeier.hatenablog.com
方法は3つのオプションから選べる
階層的クラスター分析の方法は以下の3つから選べる。
- Ward法
- 群平均法
- 最遠隣法
デフォルトはWard法で、Ward法がおすすめだ。
他の方法も含め詳しくは以下の過去記事参照。
https://toukeier.hatenablog.com/entry/2019/08/17/213342toukeier.hatenablog.com
距離の計算も3つのオプションから選べる
抽出語間の「距離」の計算も3つのオプションから選べる。
- Jaccard
- Cosine
- Euclid
デフォルトはJaccard係数で、コメント程度のテキスト分析の場合、Jaccard係数がおすすめ。
詳しくは以下の過去記事参照。
クラスターのオプション
クラスター数と色分けのオプションはデフォルトのままでOK。
クラスター数はAutoになっている。特に決めずに自動に任せる。
色分けはしたほうが見やすいので、モノクロの指定がない限り色分けは使う。
最大出現数の上限設定
とても頻繁に出てくる単語だが、記号類等で意味がない単語は解析から除外する。
除外する方法の一つとして、最大出現数の上限を決めてしまうのがよい。
今回の場合、300回を超えて出現する単語は、Twitterの記号類だったので、削除するために上限300に設定した。
オプション設定の全体像
上記を踏まえて、クラスター分析のオプション全体は以下の通りである。
KH Coderで階層的クラスター分析を行った結果例
以下の図が分析結果である。
「近い」抽出語同士は「枝(まるでトーナメントの対戦相手を示すような線 (KH Coderでは水平である )」が短い。「遠い」語同士は「枝」が長い。
例えば、woofoo と inc、AL と OpenGateなどはとても「近く」いつも一緒に記載されていたことがうかがえる。
第二段階以上のつながりは、Ward法で近いと判断された方法で、結ばれていき、最終的に木を横にしたような形になる。
樹木のような図になるので、樹状図(じゅじょうず)またはデンドログラムと呼ばれる。
同じ色で塗られた抽出語群はクラスター(かたまり、一群)を形成していると言える。
まとめ
テキストマイニングソフト KH Coderで階層的クラスター分析の実際を見てみた。
基本的に全部デフォルトのままOKをクリックして解析してよい。
結果を見て、微調整をしてもよい。
ちなみに、結果は絶対的なものではなく、解釈はあくまで分析者が行う。
おすすめ書籍
KH Coder オフィシャルブック II