順序がないカテゴリカルデータと連続データの「相関」を取りたいと思うことはないだろうか?
そんなときには相関比だ。
名義尺度と間隔尺度・比尺度との相関?
順序すらない名義尺度と間隔尺度や比尺度、つまり連続データとの「相関」って何?と思うだろう。
私はずっとそんなものはないと思い込んでいた。
だが、実際には存在していた。
それが相関比だ。
大きい・小さいがある連続データと、大きい・小さいがない名義尺度、どうやって「相関」を取るのだろうか?
相関比とは?
相関比とは、2値のカテゴリカルデータを0と1のダミー変数にして、連続データとPearsonの積率相関係数を計算する。
一瞬「は?」と思うが、0から1へ、小さいから大きい、があるにはあるので、計算可能である。
計算結果の絶対値が相関比である。
ギリシャ文字ではイータ と表現する。
母相関係数がギリシャ文字でロー と表現されることの相関比版である。
3群以上の場合はどうするか?
相関比は、一元配置分散分析の分散分析表に登場するグループ間平方和と全平方和の比の平方根に等しい。
分散分析のグループ間平方和と全平方和の比は、SPSSではイータ2乗と出力される。
これは以下の分散分析表のグループ間と全体の平方和の比である。
つまり となる。
このイータ2乗の平方根がイータで相関比というわけである。
エクセルにコピペして=SQRT()で計算すれば、算出できる。
分散分析の結果から計算されるということは、2群でも3群以上でも相関比は計算できる。
ただし、3群以上になると、もはや群自体には大きいも小さいもないので、「相関」なのかどうかよくわからない指標になる。
互いに「相関する(あいかんする)」ということで、大きいとか小さいとかは超越していると、無理やり考えれば考えられなくもない。
相関比とはそういう指標である。
まとめ
名義尺度と間隔尺度・比尺度の「相関」である相関比について述べた。
ゼロ1のダミー変数と連続データの相関係数の絶対値が相関比 イータ である。
分散分析表のグループ間平方和と全平方和の比(イータ2乗)の平方根であるので、3群以上でも計算できる。
ただし、3群以上になると、名義尺度には大きい・小さいがないため、互いに関連している指標という意味合いになる。