統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

KH Coderでテキストマイニングするためにどのようなデータをどのように準備したらよいか?

ブログランキングに参加しています。
まずはぽちぽちっとお願いします。
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 科学ブログ 数学へ

無料テキストマイニングソフト KH Coder でテキスト分析をするにあたり、どのようなデータをどのように準備すればいいのか?

そんな悩みを抱えているあなたに。

 

 

KH Coderとは?

KH Coderとは、無料で使用できるテキストマイニングソフトで、以下からダウンロードできる。

最新版ダウンロード

以下に紹介記事を掲載しておくので、詳しく知りたい場合は、そちらもどうぞ。

 

toukeier.hatenablog.com

 

KH Coderで使用するデータはどのようなものがOKなのか?

KH Coder version 3b03a (2021/05/03) 版で分析できる言語は日本語、英語を含む12言語である。

f:id:toukeier:20210508110040p:plain

KH Coderで分析できる言語(マニュアルから抜粋)

テキストは、アンケートの自由記載のような短めの文章から、小説のような長い文章まで扱える。

また、語と関連づいた項目、これを外部変数と呼ぶが、この外部変数を同時に扱うことができる。たとえば、アンケートの回答者の属性(性別、年代)などがこれにあたる。数字でも文字でも扱うことができる。

基本的には、テキストと外部変数、この二種類のデータを準備する。

 

KH Coderで使用するデータはどのように準備するのがよいか?

データを準備する場合、思いつくのはエクセル等の表計算ソフトのスプレッドシートに入力して準備するというものだろう。

では、そのシートにどのように配置すればよいのか?

おすすめは、外部変数、テキストの順に列方向に配置し、行方向に一つずつ(一人ずつ)のデータを配置する方法。

例1:ダイエットサプリのアマゾンレビュー

アマゾンで売られているダイエットサプリのレビューを取り出してデータにしたものである。

f:id:toukeier:20210508111420p:plain

ダイエットサプリのアマゾンレビューデータ(一部)

ratingが5段階評価の数値(外部変数)、review-commentがテキストである。

一人一人のデータが1行ずつになっていて、コメントは1セルずつに収まっている。

このようにしておいて、データをKH Coderへ読み込んだ時に「分析対象とする列」にreview-comment列を選ぶ。

外部変数は、対応分析など外部変数を用いる分析の際に、指定する。

このデータに興味があれば以下へ。

動画「KH Coderでダイエットサプリのアマゾン商品レビューをテキストマイニングする方法」で使ったデータ | HHA SHOP

 

例2:Yahoo!ニュースのタイトル

Yahoo!ニュースのタイトルを取り出してデータにしたものである。

f:id:toukeier:20210508111820p:plain

Yahoo!ニュースのタイトルデータ(一部)

date, rank, title, mediaの4つの列がある。

このうち「分析対象とする列」は、titleである。

date, rank, mediaは外部変数として使えるかもしれないと思い同時に収集しておいた。

列の順番は必ずしも分析対象列が右端でなくてもかまわない。

あなたが分析したいと思っているテキストと使用したいと思っている外部変数がどのような変数名であるかだけ確実に覚えておけばOKだ。

このデータに興味があればこちらへ。

動画「KH CoderでYahoo! ニュースのアクセスランキングのタイトルをテキストマイニングする方法」で使ったデータ | HHA SHOP

 

例3:空気清浄機の楽天レビュー

楽天市場で売れ筋の空気清浄機&加湿器のレビューを取り出してデータにしたものである。

f:id:toukeier:20210508112328p:plain

空気清浄機の楽天レビューデータ(一部)

name, ratingが外部変数、commentが「分析対象とする列」である。

3つの商品のコメント傾向を見たかったため、nameに3つの商品が区別できる名前がついている。

また、5段階評価別のコメント傾向も興味深いと思ったため、ratingも取得した。

ほかにも必要があれば、外部変数は取得しておいてもかまわないが、いずれの場合も、「分析対象とする列」は右端が見やすいと思う。セル内で折り返しをしなくてもある程度内容を確認することができるからだ。

このデータに興味があればどうぞ。

動画「KH Coderで空気清浄機の楽天市場商品レビューをテキストマイニングする方法」で使ったデータ | HHA SHOP

 

例4:新聞ウェブサイト記事のリード文

新聞社のウェブサイト記事のリード文を取り出してデータにしたものである。

f:id:toukeier:20210508113746p:plain

新聞社のウェブサイト記事リード文データ(一部)

このデータには、テキストが二列(HeadlineとLead)含まれている。Leadが分析対象としたリード文である。データを収集しているときにタイトル(Headline)も分析するかもしれないと思い、取得した。

このように同じシートに二列テキストが入っていても問題ない。

ただし、一度に二列は分析できないため、一列ずつの分析になる。

データを読み込んだ時、「分析対象とする列」は一列しか選べないからだ。

Newspaperは外部変数として取得した。新聞社によって同じ内容の報道も違った表現、違った用語を好んで使うのではないかという仮説をもって分析した。

このデータに興味があればこちらへ。

テキストマイニング 対応分析 サンプルデータ | HHA SHOP

 

まとめ

  • 無料テキストマイニングソフト KH Coder でテキスト分析する際にどのようなデータをどのように準備したらよいかをまとめた。
  • データは分析したいテキストデータと外部変数をエクセルシートにまとめるのがよい。
  • テキストは一つのシートに複数列に入力されていてもよいが、分析対象にできる列は一度に一列のみである。

 

動画での説明

よければどうぞ。

youtu.be

 

参考動画

テキストデータの読み込み方法の動画。分析対象とする列の指定方法も登場する(開始42秒後)。こちらも、よければどうぞ。

youtu.be

オフィシャルブック

KH Coder開発者執筆のオフィシャルブック。よければどうぞ。