統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

Coxの比例ハザードモデルの変数選択はどうすればいいのか?

ブログランキングに参加しています。
まずはぽちぽちっとお願いします。
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
にほんブログ村 科学ブログ 数学へ

Coxの比例ハザードモデルに限らず、 多変量調整モデルの調整変数を どのように選ぶべきかは悩ましい。

統計ソフトにあるステップワイズ法はどうか?

統計ソフトによっては、 ステップワイズ法が準備されている。

ステップワイズ法とは、 ステップを踏んで最良のモデルを 見極める方法。

どんなステップを踏むかというと、

調整変数をだんだん増やしていく方法

だんだん減らしていく方法

増やしたり減らしたりする方法

の三つ。

だんだん増やしていく方法は 一番数値的に関連が強い変数から だんだん増やしていく。

だんだん減らしていく方法は 最初に全部使ってモデルを作って 一番数値的に関連が弱い変数から だんだんはずしていく。

増やしたり減らしたりする方法は 一つ増やして、関連が薄い、 いらない変数はないか確認して、 いらない変数は外す。 そしてまた違う変数を投入してみるのを 繰り返していく方法。

変数の意味は考えず、 数値的に、統計学的に、 関連が強いか弱いかだけで判断する 自動プログラムだ。

よい点は、人の思惑、 恣意が含まれず数学的、客観的。

悪い点は、完全に数字上の話で 決めているため、出来上がりの 変数セットは完全に意味不明。

結論として、使い物にはならない。

予測に使うというよりも 関連性をみたい因子の背景を 調整したいだけならば、 自動で変数を選ぶ方法は使えない。

あくまで参考だ。

変数選択の本当の本当のところ

では、どうすればいいのか?

先行研究があるなら、真似する。

最も大事な考え方。

もし先行研究がない場合、どうするか?

理論的に経験的に、 検討したい因子と関係している 要因を選ぶ。

例えば、喫煙と死亡の関連を見たいとする。

男性は喫煙者が多い。

男性は早死にだ。

つまり、喫煙と死亡の関連を見るときに、 性別を調整するべき、 となる。

理論的に経験的に考え出すのが難しい場合はどうか?

検討したい因子と相関して、 エンドポイントとも関連する変数を 計算上で見つける。

例えば、 カテゴリ同士、 カテゴリと連続量、 連続量と連続量、の三つに やり方が分かれる。

カテゴリ同士ならFisher Exact Test。

カテゴリと連続量はWelchの方法。

連続量同士なら相関係数

独立変数同士の関連、相関を見る。

一方で、関連がある変数がエンドポイントと 関連があるかどうかも見る。

検討したい要因とも エンドポイントとも 関連がある変数は調整するとよい。

最終的に調整する変数セットが 決まったら、強制投入法で、 最終セットで最終解析をする。

まとめ

多変量解析の変数選択で大事なのは、 先行研究を真似ること。

先行研究がなければ、 理屈やエビデンスをもとに考える。

独立変数同士の関連や、 エンドポイントとの関連をもとに、 最終解析セットを決める。

最終解析セットの変数を全部投入して、 SPSSでいう強制投入で解析する。