相関係数を求めたいサンプル数が少ないのだが大丈夫か？　目安となるサンプル数

samplesize.cor.test <- function(r, sig.level=.05, power=.8,
alternative=c("two.sided","one.sided")){
 alternative <- match.arg(alternative)
 tside <- switch(alternative, one.sided=1, two.sided=2)
 Za <- qnorm(sig.level/tside, lower.tail=FALSE)
 Zb <- qnorm(power)
 C <- 0.5*log((1+r)/(1-r))
 N <- ((Za+Zb)/C)^2 + 3
 c(N=N, r=r, alpha=sig.level, Power=power)
}

＞＞もう統計で悩むのを終わりにしませんか？

↑1万人以上の医療従事者が購読中

相関係数の目安となるサンプル数

計算結果は以下に示すとして、まとめを示すと、以下のようになる。

相関係数	サンプル数
0.2	194
0.3	85
0.4	47
0.5	30
0.6	20
0.7	14

予想される相関係数が大きくなれば、サンプル数は少なくてよくなる。

サンプルの相関係数が0.2だった場合に、母相関係数がゼロではないと統計学的に証明するには、194例必要と計算される。

> samplesize.cor.test(0.2)
      N       r   alpha   Power 
193.968   0.200   0.050   0.800

0.3ならば85例でよいと計算される。

> samplesize.cor.test(0.3)
       N        r    alpha    Power 
84.92781  0.30000  0.05000  0.80000

0.4であれば、47例。

> samplesize.cor.test(0.4)
       N        r    alpha    Power 
46.73161  0.40000  0.05000  0.80000

0.5なら、30例でよい。

> samplesize.cor.test(0.5)
      N       r   alpha   Power 
29.0123  0.5000  0.0500  0.8000

0.6になると、20例でよくなる。

> samplesize.cor.test(0.6)
       N        r    alpha    Power 
19.33641  0.60000  0.05000  0.80000

0.7に至っては、たったの14例でOKなのだ。

> samplesize.cor.test(0.7)
       N        r    alpha    Power 
13.43442  0.70000  0.05000  0.80000

ちなみに、片側検定 (one.sided) にすると、さらに少ない症例でOKだ。

例えば、0.5で片側検定にすると、30例から24例に減少する。

> samplesize.cor.test(r=0.5, alternative="one")
       N        r    alpha    Power 
23.48987  0.50000  0.05000  0.80000

まとめ

相関係数の目安とサンプル数について例示した。

相関係数が大きい場合は、目安のサンプル数は少なくてよくなる。

参考になれば。

参考書籍

医学的研究のデザイン研究の質を高める疫学的アプローチ第4版

メディカルサイエンスインターナショナル

Amazon

エクセルでサンプルサイズ計算

エクセルで計算できるようにした。よければ以下からどうぞ。

相関係数のサンプルサイズ計算【エクセルでサンプルサイズ】 | TKER SHOP

使い方は、YouTubeで解説している。

相関係数のサンプルサイズ計算は一体どんな計算をしているのか？

以下は、詳細にわかりたい人向け。

サンプルサイズ $n$ の計算式は以下の通り。

\begin{equation} n = \left (\frac{Z_{\alpha/2} + Z_\beta}{z} \right )^2 + 3 \end{equation}

ここで $Z_{\alpha/2}$ は、有意水準に対応する標準正規分布のクォンタイル。

$Z_\beta$ は、検出力に対応する標準正規分布のクォンタイル。

toukeier.hatenablog.com

$z$ は、ｚ変換をした想定される相関係数である。

ｚ変換は以下のように行う。

\begin{equation} z = \frac{1}{2} \log \frac{1+r}{1-r} \end{equation}

この変換を行うと、相関係数 $r$ が正規分布に従うようになる。

どんな正規分布に従うかというと、 $N (\frac{1}{2} \log \frac{1+\rho}{1-\rho}, \frac{1}{n-3})$ という、平均が母相関係数 $\rho$ のｚ変換値 ( $z_0$ )、母分散 $\frac{1}{n-3}$ の正規分布に従う。

この関係を活用すると、母相関係数との差を分子にして、母分散の平方根を分母にした検定統計量 $T$ は、標準正規分布 $N (0, 1)$ に従うことになる。

\begin{equation} T = \frac{z - z_0}{\frac{1}{\sqrt{n-3}}} \end{equation}

この検定統計量が有意水準 $\alpha/2$ のクォンタイルに一致するときの $n$ が必要なサンプルサイズとなる。

以下の式を解けばよい。

\begin{equation} Z_{\alpha/2} = \frac{z - z_0}{\frac{1}{\sqrt{n-3}}} \end{equation}

ちなみに、 $\alpha$ が2で割られているのは、両側検定を考えているからである。

片側検定の時は2で割らなくてよい。

ここで、サンプルサイズ計算のときには、検出力分のクォンタイルが登場する。

なんと、左辺に加えるのだ。

\begin{equation} Z_{\alpha/2} + Z_\beta = \frac{z - z_0}{\frac{1}{\sqrt{n-3}}} \end{equation}

なかなか驚くと思うが、こんなふうにサンプルサイズ計算には検出力の成分が入っている。

これを「下駄をはかせる」と表現した講義が今でも忘れられない。

この一言でとてもよく理解ができた。

すなわち、かなりの悪条件であっても、つまり推定値の絶対値が小さい結果になって、統計学的有意になりにくい場面でも、検出できるように「下駄をはかせている」のである。

ここで検出力の下駄を履かせなければ、 $Z_\beta = 0$ を足したことになる。

この時の検出力は、50％ ( $Z_{0.5}$ )である。

つまり、五分五分という状態で、まさにバクチと言える。

そして、式変形をしていくと、上述の $n$ を計算する式になるわけだが、 $z_0$ は、ゼロとする。

母相関係数の検定は、母相関係数がゼロであるという帰無仮説を検定するわけなので、サンプルサイズの計算式では、母相関係数をゼロと考える。

\begin{equation} z_0 = \frac{1}{2} \log \frac{1+\rho}{1-\rho} = \frac{1}{2} \log \frac{1+0}{1-0} = \frac{1}{2} \log 1 = 0 \end{equation}

すると以下のように式変形していくことになる。

\begin{align} Z_{\alpha/2} + Z_\beta &= \frac{z-0}{\frac{1}{\sqrt{n-3}}}\\ Z_{\alpha/2} + Z_\beta &= z \sqrt{n-3}\\ (Z_{\alpha/2} + Z_\beta)^2 &= z^2 (n-3)\\ n-3 &= \frac{(Z_{\alpha/2} + Z_\beta)^2}{z^2}\\ n &= \left ( \frac{Z_{\alpha/2} + Z_\beta}{z} \right )^2 + 3 \end{align}

これで、サンプルサイズ計算の式が導出できた。

こんなふうにサンプルサイズの見積もり式は成り立っているのである。

統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

相関係数を求めたいサンプル数が少ないのだが大丈夫か？　目安となるサンプル数

相関係数の目安・意味

相関係数のサンプル数の求め方

相関係数の目安となるサンプル数

まとめ

参考書籍

エクセルでサンプルサイズ計算

相関係数のサンプルサイズ計算は一体どんな計算をしているのか？