統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

相関比とは?―カテゴリカルデータと連続データの相関―

complete pack banner

text data complete pack banner

順序がないカテゴリカルデータと連続データの「相関」を取りたいと思うことはないだろうか?

そんなときには相関比だ。

名義尺度と間隔尺度・比尺度との相関?

順序すらない名義尺度と間隔尺度や比尺度、つまり連続データとの「相関」って何?と思うだろう。

私はずっとそんなものはないと思い込んでいた。

だが、実際には存在していた。

それが相関比だ。

大きい・小さいがある連続データと、大きい・小さいがない名義尺度、どうやって「相関」を取るのだろうか?

相関比とは?

相関比とは、2値のカテゴリカルデータを0と1のダミー変数にして、連続データとPearsonの積率相関係数を計算する。

一瞬「は?」と思うが、0から1へ、小さいから大きい、があるにはあるので、計算可能である。

計算結果の絶対値が相関比である。

ギリシャ文字ではイータ  \eta と表現する。

相関係数ギリシャ文字でロー  \rho と表現されることの相関比版である。

3群以上の場合はどうするか?

相関比は、一元配置分散分析の分散分析表に登場するグループ間平方和と全平方和の比の平方根に等しい。

分散分析のグループ間平方和と全平方和の比は、SPSSではイータ2乗と出力される。

これは以下の分散分析表のグループ間と全体の平方和の比である。

つまり 2034.259 / 9232.815 = 0.2203292 となる。

このイータ2乗の平方根がイータで相関比というわけである。

エクセルにコピペして=SQRT()で計算すれば、算出できる。

分散分析の結果から計算されるということは、2群でも3群以上でも相関比は計算できる。

ただし、3群以上になると、もはや群自体には大きいも小さいもないので、「相関」なのかどうかよくわからない指標になる。

互いに「相関する(あいかんする)」ということで、大きいとか小さいとかは超越していると、無理やり考えれば考えられなくもない。

相関比とはそういう指標である。

まとめ

名義尺度と間隔尺度・比尺度の「相関」である相関比について述べた。

ゼロ1のダミー変数と連続データの相関係数の絶対値が相関比 イータ である。

分散分析表のグループ間平方和と全平方和の比(イータ2乗)の平方根であるので、3群以上でも計算できる。

ただし、3群以上になると、名義尺度には大きい・小さいがないため、互いに関連している指標という意味合いになる。

参考サイト

統計学入門−第5章