統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

共起ネットワーク - KH Coderによるテキストマイニング

Toukei Consul Banner

KH Coder Consul Banner

個々人のコメント間の共通性をネットワーク図にして示す方法が共起(きょうき)ネットワークだ。

TwitterTweetを使って、無料で使えるテキストマイニングソフト KH Coder で共起ネットワーク図を描いてみた。

KH Coderとは?

KH Coderとは、無料で使えるテキストマイニングソフト。以下の過去記事に詳しく描いているので、参照してほしい。

toukeier.hatenablog.com

共起ネットワークとは?

一つ一つの文書で出現する単語「抽出語」のうち、「距離」が近いか遠いかを計算し、図示したもの。

共起ネットワークでは「距離」を「edge」と呼ぶ。Edgeは線で表現される。抽出語はnodeと呼ばれ円で表現され、nodeはedgeによって結ばれる。

KH Coderで共起ネットワークに使える「距離(共起関係 edge)」はJaccard係数、Cosine係数、Euclid距離が選択できるが、Tweet程度のような適度なコメント程度の文書の場合は、Jaccard係数が適している。以下も参照。

Jaccard係数とは?

toukeier.hatenablog.com

こちらも参照のこと(多次元尺度構成法に使う距離には3種類ある

共起ネットワーク図の例

共起ネットワークの図を例示する。以下のようにedge(線)で結ばれているnode(円)同士は近い「距離」にあり、共通に出現していて共起関係があると言う。

円の大きさは出現回数を示している。同じ色の円は距離が近い抽出語同士であることを示している。

共起ネットワークの図を描画するには、メニューバーから「ツール」→「抽出語」→「共起ネットワーク」を選択し、ウィンド内のOKボタンで実行する。

こちらも参照のこと(共起ネットワーク図はどうやって描くか?

f:id:toukeier:20190819200149p:plain

共起関係の強弱を表すには?

共起関係 edge には強い弱いがある。つまり「距離」が近い遠いがある。たくさんの文書で共通に登場する抽出語同士はedgeが強くなる。図の実際の距離ではなく、線の濃さを見てほしい。

f:id:toukeier:20190819200507p:plain

共起関係を線の濃淡で表現するためには、「強い共起関係ほど濃い線に」のチェックボックスにチェックを入れる。

f:id:toukeier:20190819200614p:plain

共起関係の強さ Jaccard 係数を表示させるには?

共起ネットワーク図中にedgeの濃さのもととなったJaccard係数を表示させられる。

f:id:toukeier:20190819201103p:plain

「強い共起関係ほど濃い線に」の右側の「係数を表示」のチェックボックスにチェックを入れる。

f:id:toukeier:20190819201157p:plain

共起関係がある程度強いedgeだけに絞って見やすい図にするには?

共起関係がある程度強いedgeに絞ると、重要な共起関係だけが残り、図がすっきりして解釈しやすくなる。

f:id:toukeier:20190819201325p:plain

上位「60」個の右側のラジオボタンをクリックし、係数「0.2」以上をアクティブにすると、Jaccard係数が0.2以上の共起関係だけを表示させることができる。

f:id:toukeier:20190819201526p:plain

抽出語の取捨選択

共起ネットワーク図を描画する前に、抽出語のうち着目しない語をけずることもある。今回の場合300以上出現した抽出語はTweetRetweetに特有な記号類であったために「最大出現数」を300に絞ることで除外した。

f:id:toukeier:20190819201729p:plain

こちらも参照のこと(解析に使う抽出語の調整

まとめ

共起ネットワーク図をKH Coderで描画してみた。

共起ネットワークは、単語が共通に出現する関係(共起関係)を円と線で表示した図である。

どんな単語が同じコメント内に出現しやすいかが感覚的に把握できて、一つ一つの文書を読んでいく方法とは一味違った解釈やひらめきを呼び込む。

ぜひ、お試しあれ!

KH Coder 共起ネットワーク図の描き方解説 詳細版【動画】(2020年6月13日公開)

youtu.be

KH Coder 共起ネットワーク図の描き方解説 詳細版 続き【動画】(2020年6月17日公開)

youtu.be

KH Coder の本 - 2020年4月3日追記

KH Coder 開発者によるオフィシャルブック。2020年4月6日発売!

KH Coderコンサル【無料でテキストマイニング】(2020年7月20日追記、2021年8月16日更新)

無料テキストマイニングソフト KH Coderの使い方相談サービスを提供中。よければぜひご利用を。

KH Coderコンサル ― テキストマイニングソフト KH Coder 使い方相談サービス | HHA SHOP

KH Coderで共起ネットワークを描く方法 ― 外部変数がある場合【動画】(2020年10月16日追記)

KH Coderで、外部変数がある場合の共起ネットワークを描く方法。よければどうぞ。

外部変数を使った共起ネットワークの場合、一部の外部変数に共起関係が集中してしまい傾向がみられないことを避けるために、すべての外部変数値にだいたい同数の語がつながるように調整されている。この調整は、「係数の標準化」という名称でデフォルトで行うことになっているが、このチェックを外すと未調整の結果が得られる。(2020年11月8日追記)

f:id:toukeier:20201108183650p:plain
「係数の標準化」のチェックをはずすと、未調整の結果が得られる

youtu.be