KH Coder で階層的クラスター分析を行う方法

階層的クラスター分析を KH Coder で行う方法

＞＞もう統計で悩むのを終わりにしませんか？

↑1万人以上の医療従事者が購読中

KH Coderとクラスター分析 - 前提知識
KH Coderで階層的クラスター分析を行うには？
KH Coderで階層的クラスター分析を行った結果例
まとめ
おすすめ書籍

KH Coderとクラスター分析 - 前提知識

KH Coderは無料で使えるテキストマイニングソフトである。

詳しくは過去記事を参照。

https://toukeier.hatenablog.com/entry/2018/10/14/113839toukeier.hatenablog.com

クラスター分析は、要素間の「距離」を計算して、近い者同士を結び付ける分析方法。

階層的クラスター分析は、クラスター間により近い、比較的遠いの階層がある分析方法である。

クラスター分析については、以下の過去記事を参照。

https://toukeier.hatenablog.com/entry/2019/05/12/204830toukeier.hatenablog.com

階層的クラスター分析の過去記事も参考に。

toukeier.hatenablog.com

KH Coderで階層的クラスター分析を行うには？

データの前処理が終わった段階として、話を進める。

データの前処理が終わっていなければ、前述の過去記事を参照。

https://toukeier.hatenablog.com/entry/2018/10/14/113839toukeier.hatenablog.com

＞＞もう統計で悩むのを終わりにしませんか？

↑1万人以上の医療従事者が購読中

方法は3つのオプションから選べる

階層的クラスター分析の方法は以下の3つから選べる。

Ward法
群平均法
最遠隣法

デフォルトはWard法で、Ward法がおすすめだ。

他の方法も含め詳しくは以下の過去記事参照。

https://toukeier.hatenablog.com/entry/2019/08/17/213342toukeier.hatenablog.com

距離の計算も3つのオプションから選べる

抽出語間の「距離」の計算も3つのオプションから選べる。

Jaccard
Cosine
Euclid

デフォルトはJaccard係数で、コメント程度のテキスト分析の場合、Jaccard係数がおすすめ。

詳しくは以下の過去記事参照。

toukeier.hatenablog.com

クラスターのオプション

クラスター数と色分けのオプションはデフォルトのままでOK。

クラスター数はAutoになっている。特に決めずに自動に任せる。

色分けはしたほうが見やすいので、モノクロの指定がない限り色分けは使う。

最大出現数の上限設定

とても頻繁に出てくる単語だが、記号類等で意味がない単語は解析から除外する。

除外する方法の一つとして、最大出現数の上限を決めてしまうのがよい。

今回の場合、300回を超えて出現する単語は、Twitterの記号類だったので、削除するために上限300に設定した。

オプション設定の全体像

上記を踏まえて、クラスター分析のオプション全体は以下の通りである。

KH Coderで階層的クラスター分析を行った結果例

以下の図が分析結果である。

「近い」抽出語同士は「枝（まるでトーナメントの対戦相手を示すような線 (KH Coderでは水平である）」が短い。「遠い」語同士は「枝」が長い。

例えば、woofoo と inc、AL と OpenGateなどはとても「近く」いつも一緒に記載されていたことがうかがえる。

第二段階以上のつながりは、Ward法で近いと判断された方法で、結ばれていき、最終的に木を横にしたような形になる。

樹木のような図になるので、樹状図（じゅじょうず）またはデンドログラムと呼ばれる。

同じ色で塗られた抽出語群はクラスター（かたまり、一群）を形成していると言える。

まとめ

テキストマイニングソフト KH Coderで階層的クラスター分析の実際を見てみた。

基本的に全部デフォルトのままOKをクリックして解析してよい。

結果を見て、微調整をしてもよい。

ちなみに、結果は絶対的なものではなく、解釈はあくまで分析者が行う。

統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め