統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

クラスター分析とは?

クラスター分析とは何か?

そもそも、クラスターって何?

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

クラスターとは?

クラスターとは、グループとか塊(かたまり)の意味。

データをいくつかの塊に分けたものをクラスタと言う。

クラスター分析とは?

集めたデータをいくつかの塊に分けて、その特徴を見る方法がクラスター分析と呼ばれる。

クラスター分析にはいくつかの種類がある。

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

クラスター分析の種類

英語名 日本語名
Connectivity-based clustering (hierarchical clustering) 階層型クラスタリング
Centroid-based clustering (k-means clustering) k平均法
Distribution-based clustering 分布に基づくクラスタリング
Density-based clustering 密度に基づくクラスタリング

出典:

en.wikipedia.org

階層型クラスタリング Hierarchical Clustering

階層を作って分類する方法。データ同士の「距離」を測って、遠い・近いで分類する。

デンドログラムと呼ばれる図を描く。

https://upload.wikimedia.org/wikipedia/commons/thumb/1/12/Iris_dendrogram.png/220px-Iris_dendrogram.png

k平均法 k-means Clustering

k平均法のkは、任意の数で、1でも2でも3でもいい。

kの数だけのクラスターに分類する方法。

それぞれのクラスターの平均を使う。

https://upload.wikimedia.org/wikipedia/commons/thumb/e/ea/K-means_convergence.gif/220px-K-means_convergence.gif

Distribution-based Clustering

Expectation-maximization (EM) アルゴリズムを使ったGaussian Mixture Modelを代表とした分布に基づくクラスタリング

https://upload.wikimedia.org/wikipedia/commons/thumb/d/d8/EM-Gaussian-data.svg/186px-EM-Gaussian-data.svg.png

Density-based Clustering

Density-based spatial clustering of applications with noise (DBSCAN)を代表とした密度に基づくクラスタリング

https://upload.wikimedia.org/wikipedia/commons/thumb/0/05/DBSCAN-density-data.svg/200px-DBSCAN-density-data.svg.png

まとめ

クラスター分析は、いくつかのデータの塊(クラスター)に分類する分析方法。

データの特徴・構造を見出す方法で、データマイニングの一手法。

階層型クラスタリングk平均法は特によく知られている。