統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

ケースコントロール研究 Case-control study のサンプルサイズ計算はどうやるか?

kaiseki daiko banner

ケースコントロール研究のオッズ比を求めるためのサンプルサイズ計算はどうやるのか?

ケースコントロール研究のサンプルサイズ計算の前提

一般人の危険因子にさらされている割合をfとする。

想定されるオッズ比をRとする。

前提はこの二つだけだ。

この二つの条件を先行研究から見つけるか、 妥当な値を何らかの根拠を持って決める。

ケースコントロール研究のサンプルサイズ計算のスクリプト

統計ソフトRで計算する場合、以下のスクリプトで計算できる。

sample.size.case.control <- function (f, R, alpha=0.05, power=0.8){
p3 <- f*R/(1+f*(R-1))
q3 <- 1-p3
u <- 1/2*f*(1+R/(1+f*(R-1)))
n <- (qnorm(alpha/2, lower.tail=F)*sqrt(2*u*(1-u))+qnorm(power)*sqrt(f*(1-f)+p3*q3))^2/(f-p3)^2

METHOD <- "Case Control Study Sample Size Calculation"
NOTE <- "n is number in *each* group"
structure(list(n=n,"Prop exposed in gen pop"=f, "Assumed Odds Ratio"=R, sig.level=alpha, power=power, method=METHOD, note=NOTE), class="power.htest")
}

ケースコントロール研究のサンプルサイズ計算の実際

例えば、肺がん。

喫煙者は一般人の2割。

喫煙していると喫煙していない人と比べ オッズ比は5。5倍肺がんになりやすい。

この研究はすでに行われていて十分わかっているので、 実施されることはないが、 実施するとしたら肺がん、非肺がんともに28人の研究でいい。

> sample.size.case.control(f=0.2, R=5)

     Case Control Study Sample Size Calculation 

                      n = 27.97932
Prop exposed in gen pop = 0.2
     Assumed Odds Ratio = 5
              sig.level = 0.05
                  power = 0.8

NOTE: n is number in *each* group

例えば、糖質6割、タンパク質2割、脂質2割という食事が、 糖尿病を引き起こすことを証明したい。

一般人の8割は糖質6割の糖質過多の食事をしているだろう。

糖尿病になるオッズ比が3とする。

このとき糖尿病患者さんと糖尿病でない人をそれぞれ 123人集めればOKという計算だ。

> sample.size.case.control(f=0.8, R=3)

     Case Control Study Sample Size Calculation 

                      n = 122.4343
Prop exposed in gen pop = 0.8
     Assumed Odds Ratio = 3
              sig.level = 0.05
                  power = 0.8

NOTE: n is number in *each* group

例えば、過重労働と心筋梗塞の研究をしたいとする。

月80時間以上の残業をしているブラックな働かされ方をしている人は 全体の1割くらいと想像する。

心筋梗塞を起こすリスクを、オッズ比2と想定する。

このとき、研究に必要なサンプルサイズは 心筋梗塞患者さんと心筋梗塞を起こさなかった人それぞれ、 283人必要との計算になる。

結構大がかりな研究になることがわかる。

> sample.size.case.control(f=0.1, R=2)

     Case Control Study Sample Size Calculation 

                      n = 282.686
Prop exposed in gen pop = 0.1
     Assumed Odds Ratio = 2
              sig.level = 0.05
                  power = 0.8

NOTE: n is number in *each* group

まとめ

ケースコントロール研究のサンプルサイズ計算は、 一般人口での危険因子曝露割合と想定オッズ比がわかれば計算できる。

網羅的な先行研究のチェックが必須だし、 もし研究がおこなわれていなければ、 妥当な線を自分で考えねばならない。

いずれにしても、ケースコントロール研究は観察型で、 検証試験ではないため、 それほど厳密でなくてよいことは救いだ。

エクセルでサンプルサイズ(2020年4月17日追記)

エクセルでサンプルサイズ計算ができるようにしてみた。よければどうぞ。

【疫学】ケースコントロール研究 サンプルサイズ計算 【エクセルでサンプルサイズ】 | HHA SHOP

エクセルファイルの使い方動画。こちらもよければどうぞ。(2021年2月21日追記)

youtu.be

参考文献

統計学的にみて必要なサンプル数について