統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

二群の例数が大きく差がある場合の比較は適切か?

kaiseki daiko banner

まれな疾患の患者さんのデータと、 その疾患を持たない患者さんデータを比較しようとすると、 人数が大きく異なる。

まれな疾患はデータが集まりにくい。

人数が小さなグループと大きなグループを比較することは問題ないのか?

質問

比較的まれな疾患(ある疾患の非定型例)に対する研究を考えている。

サンプルサイズ計算をすると、 定型例が10000例、非定型例が100例と見積もられたが、 このようなnにかなり差がある二群間を そのままStudent tやWelchやMann-Whitneyなどで 検定してもよいのか?

このような解析をしている研究はあまり見かけないということと、 周囲から、非定型100例に見合うサンプルを定型例から抽出して 二群間を比較検討したほうがよいのでは? という意見をもらったので、相談した。

回答

比較は可能で、問題なし。

以下の点を考慮していただくとよい。

n のバランスが崩れていると統計学的有意に出にくくなる。

バランスしている(1:1)のときに統計学的有意の検出力が最大になるから。

ただ1:1であっても今回の場合100例ずつでは検出力は下がる可能性がある。

注目したケースが少なくコントロールがふんだんにある場合、 1:nのマッチングをすることがある。

ただしこの場合でも、1:5を超えても検出力は上がらない。

今回の場合は1:100なので、無駄にコントロールがたくさんあるとも言える。

一方で、100例と10000例が同じ質のデータが取れているのであれば、 何も考えずそのまま解析すればよい。

同じ質のデータが取れない、 たとえば、100例は完璧にとれているのだが、 10000例のほうは数百例取り出し、 完璧にするのが精いっぱいということであれば、 1:2とか1:3とかマッチングさせて、 完璧なコントロールのデータを取るという方法が考えられる。

100例にみあったコントロールにすべきとおっしゃった方が、 ただなんとなくとか、差が大きいのは気持ちが悪いからとか、 100例対10000例が一般的じゃないからという意味であれば、 必ずしも従う必要はない。

しかし、その分野の特異性を考えてとか、 数学的にそのほうがよりよいという証拠が あっておっしゃっているようであれば、 それに従ったほうがよいかもしれない。

もう少し詳しくその真意を聞けるといい。