統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

相関係数を求めたいサンプル数が少ないのだが大丈夫か? 目安となるサンプル数

相関係数を求めたいサンプル数が少ないけど、大丈夫なのか?

相関係数が大きい場合、サンプル数は少なくても大丈夫。

目安となるサンプル数はどのくらいか?

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

相関係数の目安・意味

相関係数には、慣例として、以下のような目安がある。

相関係数の絶対値 解釈
0.0~0.2 ほとんど相関関係がない
0.2~0.4 やや相関関係がある
0.4~0.7 かなり相関関係がある
0.7~1.0 強い相関関係がある

母集団の相関係数がゼロではない、いわゆる統計学的有意が前提で、そのうえで、サンプルでの相関係数がどのくらいのときに、どんな意味を持つか。

これが重要だ。

相関係数のサンプル数の求め方

相関係数のサンプル数とは、要するにいくつの相関係数統計学的有意すなわち母相関係数がゼロでないと言えるかを計算するものだ。

Rで計算する場合のスクリプトは以下の通り。

samplesize.cor.test <- function(r, sig.level=.05, power=.8,
alternative=c("two.sided","one.sided")){
 alternative <- match.arg(alternative)
 tside <- switch(alternative, one.sided=1, two.sided=2)
 Za <- qnorm(sig.level/tside, lower.tail=FALSE)
 Zb <- qnorm(power)
 C <- 0.5*log((1+r)/(1-r))
 N <- ((Za+Zb)/C)^2 + 3
 c(N=N, r=r, alpha=sig.level, Power=power)
}

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

相関係数の目安となるサンプル数

計算結果は以下に示すとして、まとめを示すと、以下のようになる。

相関係数 サンプル数
0.2 194
0.3 85
0.4 47
0.5 30
0.6 20
0.7 14

予想される相関係数が大きくなれば、サンプル数は少なくてよくなる。

サンプルの相関係数が0.2だった場合に、母相関係数がゼロではないと統計学的に証明するには、194例必要と計算される。

> samplesize.cor.test(0.2)
      N       r   alpha   Power 
193.968   0.200   0.050   0.800 

0.3ならば85例でよいと計算される。

> samplesize.cor.test(0.3)
       N        r    alpha    Power 
84.92781  0.30000  0.05000  0.80000 

0.4であれば、47例。

> samplesize.cor.test(0.4)
       N        r    alpha    Power 
46.73161  0.40000  0.05000  0.80000 

0.5なら、30例でよい。

> samplesize.cor.test(0.5)
      N       r   alpha   Power 
29.0123  0.5000  0.0500  0.8000 

0.6になると、20例でよくなる。

> samplesize.cor.test(0.6)
       N        r    alpha    Power 
19.33641  0.60000  0.05000  0.80000 

0.7に至っては、たったの14例でOKなのだ。

> samplesize.cor.test(0.7)
       N        r    alpha    Power 
13.43442  0.70000  0.05000  0.80000 

ちなみに、片側検定 (one.sided) にすると、さらに少ない症例でOKだ。

例えば、0.5で片側検定にすると、30例から24例に減少する。

> samplesize.cor.test(r=0.5, alternative="one")
       N        r    alpha    Power 
23.48987  0.50000  0.05000  0.80000 

まとめ

相関係数の目安とサンプル数について例示した。

相関係数が0.4を超えるとかなり相関があると言える。

相関係数が大きい場合は、目安のサンプル数は少なくてよくなる。

相関係数が0.4の時は、サンプル数は47例必要となる。

参考書籍

エクセルでサンプルサイズ計算

エクセルで計算できるようにした。よければ以下からどうぞ。

相関係数のサンプルサイズ計算【エクセルでサンプルサイズ】 | TKER SHOP

使い方は、YouTubeで解説している。

相関係数のサンプルサイズ計算は一体どんな計算をしているのか?

以下は、詳細にわかりたい人向け。

サンプルサイズ  n の計算式は以下の通り。

\begin{equation} n = \left (\frac{Z_{\alpha/2} + Z_\beta}{z} \right )^2 + 3 \end{equation}

ここで  Z_{\alpha/2} は、有意水準に対応する標準正規分布のクォンタイル。

 Z_\beta は、検出力に対応する標準正規分布のクォンタイル。

toukeier.hatenablog.com

 z は、z変換をした想定される相関係数である。

z変換は以下のように行う。

\begin{equation} z = \frac{1}{2} \log \frac{1+r}{1-r} \end{equation}

この変換を行うと、相関係数  r正規分布に従うようになる。

どんな正規分布に従うかというと、 N (\frac{1}{2} \log \frac{1+\rho}{1-\rho}, \frac{1}{n-3}) という、平均が母相関係数  \rho のz変換値 ( z_0)、母分散  \frac{1}{n-3}正規分布に従う。

この関係を活用すると、母相関係数との差を分子にして、母分散の平方根を分母にした検定統計量  T は、標準正規分布  N (0, 1) に従うことになる。

\begin{equation} T = \frac{z - z_0}{\frac{1}{\sqrt{n-3}}} \end{equation}

この検定統計量が有意水準  \alpha/2 のクォンタイルに一致するときの  n が必要なサンプルサイズとなる。

以下の式を解けばよい。

\begin{equation} Z_{\alpha/2} = \frac{z - z_0}{\frac{1}{\sqrt{n-3}}} \end{equation}

ちなみに、 \alpha が2で割られているのは、両側検定を考えているからである。

片側検定の時は2で割らなくてよい。

ここで、サンプルサイズ計算のときには、検出力分のクォンタイルが登場する。

なんと、左辺に加えるのだ。

\begin{equation} Z_{\alpha/2} + Z_\beta = \frac{z - z_0}{\frac{1}{\sqrt{n-3}}} \end{equation}

なかなか驚くと思うが、こんなふうにサンプルサイズ計算には検出力の成分が入っている。

これを「下駄をはかせる」と表現した講義が今でも忘れられない。

この一言でとてもよく理解ができた。

すなわち、かなりの悪条件であっても、つまり推定値の絶対値が小さい結果になって、統計学的有意になりにくい場面でも、検出できるように「下駄をはかせている」のである。

ここで検出力の下駄を履かせなければ、 Z_\beta = 0 を足したことになる。

この時の検出力は、50% ( Z_{0.5})である。

つまり、五分五分という状態で、まさにバクチと言える。

そして、式変形をしていくと、上述の  n を計算する式になるわけだが、 z_0 は、ゼロとする。

相関係数の検定は、母相関係数がゼロであるという帰無仮説を検定するわけなので、サンプルサイズの計算式では、母相関係数をゼロと考える。

\begin{equation} z_0 = \frac{1}{2} \log \frac{1+\rho}{1-\rho} = \frac{1}{2} \log \frac{1+0}{1-0} = \frac{1}{2} \log 1 = 0 \end{equation}

すると以下のように式変形していくことになる。

\begin{align} Z_{\alpha/2} + Z_\beta &= \frac{z-0}{\frac{1}{\sqrt{n-3}}}\\ Z_{\alpha/2} + Z_\beta &= z \sqrt{n-3}\\ (Z_{\alpha/2} + Z_\beta)^2 &= z^2 (n-3)\\ n-3 &= \frac{(Z_{\alpha/2} + Z_\beta)^2}{z^2}\\ n &= \left ( \frac{Z_{\alpha/2} + Z_\beta}{z} \right )^2 + 3 \end{align}

これで、サンプルサイズ計算の式が導出できた。

こんなふうにサンプルサイズの見積もり式は成り立っているのである。