統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

ロジスティック回帰の説明変数の数

ロジスティック回帰の説明変数の数はいくつ入れてよいのか?

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

ロジスティック回帰の説明変数の数

ロジスティック回帰分析をする場合、サンプルサイズによっていくつの説明変数を投入できるか

サンプルサイズ諸論 の記述がもっともクリアでわかりやすい

二項ロジスティック回帰分析のサンプルサイズについては、シミュレーションの結果、従属変数のいずれか少ないカテゴリのサイズが説明変数×10以下であると、結果のバイアス、精度、モデルフィット等問題が生じていることが示された。しかし、少ないカテゴリのサイズが説明変数×10以上では問題がなかったことが示された(Peduzzi et al., 1996)。この論文のインパクトは大きく、昨今でもロジスティック回帰分析のサンプルサイズは説明変数×10以上が必要とされている場合が多い。

Peduzzi et al., 1996 とは、こちらの論文である

A simulation study of the number of events per variable in logistic regression analysis

著者らは、モンテカルロシミュレーションを用いて、ロジスティック回帰分析における、説明変数の数に対するイベントの数の影響を評価した

We performed a Monte Carlo study to evaluate the effect of the number of events per variable (EPV) analyzed in logistic regression analysis.

説明変数の数に対するイベントの数が 10 以上であった場合、大きな問題は起きなかった

一方で、10 未満であった場合、偏回帰係数が、プラスにもマイナスにもバイアスを生じた (以下略)

For EPV values of 10 or greater, no major problems occurred. For EPV values less than 10, however, the regression coefficients were biased in both positive and negative directions; ...

ということで、説明変数の数に対するアウトカムにおけるイベント数が 10 倍以上あれば、大きな問題は生じず、問題ないと言える

つまり、10 個の説明変数を投入したければ、少なくともアウトカムにおいてイベントが 100 例生じている必要があるという意味である

まとめ

ロジスティック回帰の説明変数の数について、シミュレーション結果に基づく適切な数について解説した

参考になれば

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

参考文献

サンプルサイズ諸論

A simulation study of the number of events per variable in logistic regression analysis