統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

対応分析でテキスト分析 - KH Coderでテキストマイニング

Toukei Consul Banner

KH Coder Consul Banner

対応分析は、コレスポンデンス分析 correspondence analysisとも言われる分析方法だ。

テキストマイニングでの対応分析では、どのグループでどんな発言が多かったかの傾向を図でつかむ方法。

テキストマイニングソフト KH Coder で実際にやってみたので共有。

対応分析とは - 一般的な話

対応分析とは、分割表で集計したデータを、独立性の検定とは違った形で分析する方法。

行の要素と列の要素、それぞれをX軸とY軸の二次元空間にプロットして傾向を見るという方法。

対応分析の例として過去記事はこちら。

toukeier.hatenablog.com

方法の理屈についてはこちらも参照。

toukeier.hatenablog.com

対応分析を実施するには?- KH Coderの使い方

KH Coder全般について

KH Coderは無料で利用できるテキストマイニングソフトだ。詳しくは過去記事を参照してほしい。

toukeier.hatenablog.com

KH Coderで対応分析をするデータは?

今回例として分析してみるのは、2019年8月22日から一週間の大新聞五紙(Y、A、M、N、S)の見出しとリード文だ。トピックは「日韓対立」。

2019年8月22日は 日韓の軍事情報包括保護協定(GSOMIA、ジーソミア)を韓国が破棄すると発表した日。

GSOMIA破棄宣言から、実際の破棄の通達、北朝鮮のミサイル発射、チョ・グクの家族の不正疑惑報道、トランプ大統領及び米国政府高官のコメント、韓国海竹島訓練、ホワイト国除外、そして日本が「禁輸」をするからGSOMIAを破棄したんだと韓国が日本だけ悪者にして居直る記事の数々をウェブサイトからコピペした。

このデータをもとに、日本の五大新聞の特徴を、抽出語との重なりで見ていく。

分析に入る前に、ジーソミアの英語表記が半角と全角が混じっていたので、半角に統一した。

分析途中で、ムンジェイン大統領のカタカナ表記が、ムン・ジェインとなっている新聞があるのに気づき、データに戻って中黒なしのムンジェインで統一した。

こういうデータクリーニングが事前や解析中に気づいたとき必要となる。

サンプルデータは入手できるか?(2020年7月25日追記)

追試してみたい場合、こちらから入手可能。よければどうぞ。

テキストマイニング 対応分析 サンプルデータ | HHA SHOP

KH Coderで対応分析をするには?

まず、前処理で、「分析対象ファイルのチェック」と「前処理の実行」を行う。

未確認であれば、詳細はこちらを参照。

toukeier.hatenablog.com

KH Coder のデフォルトで - リード文の分析

KH Coderのデフォルトでリード文の分析を行ってみる。

リード文は、タイトルのあと最初のひと段落のことを言う。このひと段落に言いたいこと(概要)が詰まっている。

「ツール」→「抽出語」→「対応分析」を選択する。

f:id:toukeier:20190830202100p:plain

抽出語x外部変数で分析する。

外部変数はNewspaperという変数を選ぶ。上記の通り五大新聞の頭文字が入力されている。

そのままOKをクリックすると以下の図が描かれる。

f:id:toukeier:20190830202037p:plain

左下の「カラー」をクリックするとカラー以外の表示方法が選べる。

f:id:toukeier:20190830202206p:plain

グレースケールは以下の通り。

f:id:toukeier:20190830202118p:plain

変数、つまり新聞のドットだけを残すと、こんな感じ。

f:id:toukeier:20190830202134p:plain

ドットのみで、抽出語や変数名のラベル表示をなくすと、こんな風になる。

f:id:toukeier:20190830202148p:plain

原点から離れた語のみラベル表示 - 上位30語に厳選

中心にある抽出語は、特徴がない抽出語である。

原点から離れた語が着目すべき抽出語だ。さらに数を絞ると見やすくなる。今回は60位の半分の30位までに厳選した。

f:id:toukeier:20190830202327p:plain

「カラー」の右隣の「調整」をクリックすると図の調整のためのウィンドが開くので、そのウィンド内で調整する。

f:id:toukeier:20190830202445p:plain

バブルプロット - 出現頻度が高いほど大きなバブルで表示する

出現頻度が高い抽出語を大きな円で描いた図をバブルプロット呼んでいる。

f:id:toukeier:20190830202419p:plain

バブルが大きければ大きいほど、出現回数が多い。

f:id:toukeier:20190830202501p:plain

リード文の分析結果まとめ

新聞ごとに特徴が表れた。

S紙は、竹島、合同、島根、対応、批判、優遇という語の近くにプロットされた。他紙に比べ、竹島合同訓練が特徴的だったと言える。

N紙は、問題、解決、巡る、共有、協力、徴用、会見という語の近くにプロットされた。問題解決のための協力などの取り上げ方が特徴だったと言える。

A紙は、首相、手続き、強化、受ける、ホワイト(国)という語の近くにプロットされた。安倍首相の発言や対韓輸出規制強化、ホワイト国除外などの記事が特徴的だったと言える。

M紙とY紙は、原点近くに寄っており、他紙との比較において特段特徴がみられなかったと解釈できる。

タイトルの分析結果

タイトルも同様に分析した。

デフォルトの「カラー」の結果はこちら。

f:id:toukeier:20190830202524p:plain

原点から離れている語、上位30語に絞ったバブルプロットの結果はこちら。

f:id:toukeier:20190830202551p:plain

タイトルの分析結果まとめ

Y紙は、竹島、訓練、抗議、決定、米(国)に近い位置にプロットされ、竹島訓練に対する抗議が特徴的だったと言える。

N紙は、軍事、協定、失望、韓、歴史、突くという語に近い位置にプロットされた。軍事情報保護協定破棄に失望した米国や韓国の歴史認識問題、ジーソミア破棄のスキを突く北朝鮮のミサイル発射などが特徴的だったと言える。

A紙とM紙は、日本、輸出、問題の近くに位置した。日本の対韓輸出規制強化が問題だったというタイトルが特徴的だったと言える。

S紙は、他紙との比較において、タイトルには特段の特徴が見いだせなかったと解釈できる。

まとめ

テキストマイニングソフト KH Coderを使って、日本の五大新聞のリード文及びタイトルの対応分析を行った。

分析結果から、リード文及びタイトル、それぞれで各紙の特徴を概観することができた。

一つ一つの文章をつぶさに見るだけでは見落としがちな全体の傾向を、対応分析という客観的で大まかな分析方法で、大局的にとらえることができる。

研究には、アリの視点(詳細な分析)だけでなく、トリの視点(大局観、俯瞰的まとめ)の両面が必要だということを思い出させてくれる分析方法と言える。

KH Coderオフィシャルブック(2020年7月17日追記)

よければどうぞ。

KH Coderで対応分析をする方法―データの読み込みから図の描画・調整・保存まで【無料でテキストマイニング】【動画】(2020年8月10日追記)

KH Coderで対応分析をする方法の動画。よければどうぞ。

youtu.be

おすすめ書籍(2020年11月12日発売)

KH Coder開発者 樋口先生ご推薦の書籍なので間違いないと思われる。