テキストマイニングを KH Coder でするためにどのようなデータが必要か

無料テキストマイニングソフト KH Coder でテキスト分析をするにあたり、どのようなデータをどのように準備すればいいのか？

そんな悩みを抱えているあなたに。

＞＞もう統計で悩むのを終わりにしませんか？

↑1万人以上の医療従事者が購読中

KH Coderとは？
KH Coderで使用するデータはどのようなものがOKなのか？
KH Coderで使用するデータはどのように準備するのがよいか？
まとめ
動画での説明
参考動画
おすすめ書籍

KH Coderとは？

KH Coderとは、無料で使用できるテキストマイニングソフトで、以下からダウンロードできる。

最新版ダウンロード

以下に紹介記事を掲載しておくので、詳しく知りたい場合は、そちらもどうぞ。

toukeier.hatenablog.com

KH Coderで使用するデータはどのようなものがOKなのか？

KH Coder version 3b03a (2021/05/03) 版で分析できる言語は日本語、英語を含む12言語である。

f:id:toukeier:20210508110040p:plain — KH Coderで分析できる言語（マニュアルから抜粋）

テキストは、アンケートの自由記載のような短めの文章から、小説のような長い文章まで扱える。

また、語と関連づいた項目、これを外部変数と呼ぶが、この外部変数を同時に扱うことができる。たとえば、アンケートの回答者の属性（性別、年代）などがこれにあたる。数字でも文字でも扱うことができる。

基本的には、テキストと外部変数、この二種類のデータを準備する。

＞＞もう統計で悩むのを終わりにしませんか？

↑1万人以上の医療従事者が購読中

KH Coderで使用するデータはどのように準備するのがよいか？

データを準備する場合、思いつくのはエクセル等の表計算ソフトのスプレッドシートに入力して準備するというものだろう。

では、そのシートにどのように配置すればよいのか？

おすすめは、外部変数、テキストの順に列方向に配置し、行方向に一つずつ（一人ずつ）のデータを配置する方法。

例1：ダイエットサプリのアマゾンレビュー

アマゾンで売られているダイエットサプリのレビューを取り出してデータにしたものである。

f:id:toukeier:20210508111420p:plain — ダイエットサプリのアマゾンレビューデータ（一部）

ratingが5段階評価の数値（外部変数）、review-commentがテキストである。

一人一人のデータが１行ずつになっていて、コメントは１セルずつに収まっている。

このようにしておいて、データをKH Coderへ読み込んだ時に「分析対象とする列」にreview-comment列を選ぶ。

外部変数は、対応分析など外部変数を用いる分析の際に、指定する。

例2：Yahoo！ニュースのタイトル

Yahoo！ニュースのタイトルを取り出してデータにしたものである。

f:id:toukeier:20210508111820p:plain — Yahoo！ニュースのタイトルデータ（一部）

date, rank, title, mediaの4つの列がある。

このうち「分析対象とする列」は、titleである。

date, rank, mediaは外部変数として使えるかもしれないと思い同時に収集しておいた。

列の順番は必ずしも分析対象列が右端でなくてもかまわない。

あなたが分析したいと思っているテキストと使用したいと思っている外部変数がどのような変数名であるかだけ確実に覚えておけばOKだ。

例3：空気清浄機の楽天レビュー

楽天市場で売れ筋の空気清浄機＆加湿器のレビューを取り出してデータにしたものである。

f:id:toukeier:20210508112328p:plain — 空気清浄機の楽天レビューデータ（一部）

name, ratingが外部変数、commentが「分析対象とする列」である。

3つの商品のコメント傾向を見たかったため、nameに3つの商品が区別できる名前がついている。

また、5段階評価別のコメント傾向も興味深いと思ったため、ratingも取得した。

ほかにも必要があれば、外部変数は取得しておいてもかまわないが、いずれの場合も、「分析対象とする列」は右端が見やすいと思う。セル内で折り返しをしなくてもある程度内容を確認することができるからだ。

例4：新聞ウェブサイト記事のリード文

新聞社のウェブサイト記事のリード文を取り出してデータにしたものである。

f:id:toukeier:20210508113746p:plain — 新聞社のウェブサイト記事リード文データ（一部）

このデータには、テキストが二列（HeadlineとLead）含まれている。Leadが分析対象としたリード文である。データを収集しているときにタイトル（Headline）も分析するかもしれないと思い、取得した。

このように同じシートに二列テキストが入っていても問題ない。

ただし、一度に二列は分析できないため、一列ずつの分析になる。

データを読み込んだ時、「分析対象とする列」は一列しか選べないからだ。

Newspaperは外部変数として取得した。新聞社によって同じ内容の報道も違った表現、違った用語を好んで使うのではないかという仮説をもって分析した。

まとめ

無料テキストマイニングソフト KH Coder でテキスト分析する際にどのようなデータをどのように準備したらよいかをまとめた。
データは分析したいテキストデータと外部変数をエクセルシートにまとめるのがよい。
テキストは一つのシートに複数列に入力されていてもよいが、分析対象にできる列は一度に一列のみである。

動画での説明

よければどうぞ。

youtu.be

参考動画

テキストデータの読み込み方法の動画。分析対象とする列の指定方法も登場する（開始42秒後）。こちらも、よければどうぞ。