統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

KH Coderで階層的クラスター分析をするには?

ブログランキングに参加しています。
まずはぽちぽちっとお願いします。
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 科学ブログ 数学へ

テキストマイニングソフト KH Coder で、階層的クラスター分析を行うにはどうやったらいいか?

簡単にHow toをご紹介。

KH Coderとクラスター分析 - 前提知識

KH Coderは無料で使えるテキストマイニングソフトである。詳しくは過去記事を参照。

toukeier.hatenablog.com

クラスター分析は、要素間の「距離」を計算して、近い者同士を結び付ける分析方法。

階層的クラスター分析は、クラスター間により近い、比較的遠いの階層がある分析方法である。

クラスター分析については、以下の過去記事を参照。

toukeier.hatenablog.com

階層的クラスター分析の過去記事も参考に。

toukeier.hatenablog.com

KH Coderで階層的クラスター分析を行うには?

データの前処理が終わった段階として、話を進める。データの前処理が終わっていなければ、前述の過去記事を参照。

toukeier.hatenablog.com

方法は3つのオプションから選べる

階層的クラスター分析の方法は以下の3つから選べる。

  1. Ward法
  2. 群平均法
  3. 最遠隣法

デフォルトはWard法で、Ward法がおすすめだ。他の方法も含め詳しくは以下の過去記事参照。

toukeier.hatenablog.com

距離の計算も3つのオプションから選べる

抽出語間の「距離」の計算も3つのオプションから選べる。

  1. Jaccard
  2. Cosine
  3. Euclid

デフォルトはJaccard係数で、コメント程度のテキスト分析の場合、Jaccard係数がおすすめ。詳しくは以下の過去記事参照。

toukeier.hatenablog.com

クラスターのオプション

クラスター数と色分けのオプションはデフォルトのままでOK。

クラスター数はAutoになっている。特に決めずに自動に任せる。

色分けはしたほうが見やすいので、モノクロの指定がない限り色分けは使う。

最大出現数の上限設定

とても頻繁に出てくる単語だが、記号類等で意味がない単語は解析から除外する。

除外する方法の一つとして、最大出現数の上限を決めてしまうのがよい。

今回の場合、300回を超えて出現する単語は、Twitterの記号類だったので、削除するために上限300に設定した。

オプション設定の全体像

上記を踏まえて、クラスター分析のオプション全体は以下の通りである。

f:id:toukeier:20190823200032p:plain

KH Coderで階層的クラスター分析を行った結果例

以下の図が分析結果である。

f:id:toukeier:20190823200046p:plain

「近い」抽出語同士は「枝(まるでトーナメントの対戦相手を示すような線 (KH Coderでは水平である )」が短い。「遠い」語同士は「枝」が長い。

例えば、woofoo と inc、AL と OpenGateなどはとても「近く」いつも一緒に記載されていたことがうかがえる。

第二段階以上のつながりは、Ward法で近いと判断された方法で、結ばれていき、最終的に木を横にしたような形になる。

樹木のような図になるので、樹状図(じゅじょうず)またはデンドログラムと呼ばれる。

同じ色で塗られた抽出語群はクラスター(かたまり、一群)を形成していると言える。

まとめ

テキストマイニングソフト KH Coderで階層的クラスター分析の実際を見てみた。

基本的に全部デフォルトのままOKをクリックして解析してよい。

結果を見て、微調整をしてもよい。

ちなみに、結果は絶対的なものではなく、解釈はあくまで分析者が行う。