統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

SPSS で Cox 回帰 変数選択の方法 カテゴリ変数のハザード比

SPSS で Cox 回帰をする際の変数選択の方法とカテゴリ変数の設定の方法の解説

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

SPSS で Cox 回帰を行う例

SPSSでのCox回帰を行う例は以下の通り。

心臓カテーテル治療(PCI)を何度も経てから冠動脈バイパス術 (CABG) を行う患者の長期成績は不良かというテーマ。

  • A群:PCI歴0回のCABG患者
  • B群:PCI歴1回のCABG患者
  • C群:PCI歴2回以上のCABG患者

の3群に分け、

検討する因子は

  1. 年齢
  2. 性別
  3. 高血圧症
  4. コレステロール血症
  5. 慢性腎臓病
  6. 心機能低下(LVEF:40%未満)

など。

生存フォロー日数と状態変数は死亡とし3群でのCox回帰分析をしたい。

疑問点として以下の二つがあるとする。

  • (1) 強制投入法と変数増加法とどちらを使用すれば良いのか?
  • (2) ハザード比を求めるためにA群:3、B群:2、C群:1とし「カテゴリ…」というボタンをクリックし、参照カテゴリのラジオボタンの「最初」を選んでいるが、これは正しいか?

変数選択の方法

変数選択の際に一番大事なのは、先行研究調査である。

どんな変数が同時に投入されているか、先行研究の調査が一番大事。

予後因子の場合、着目している変数との相関を確認し(交絡因子かどうかを確認する)、同時に投入するかどうかを決める。

次に、理屈の上で交絡因子かどうかを考える。

データの上で相関が弱くとも、理屈の上で、交絡因子であれば、投入してもよい。

そして、最後に統計手法による変数選択結果を参考にする。

モデルを検討している段階では、変数増加法などの変数選択の方法を使ってみるのもよい。

その結果を踏まえるのは意義がある。

しかし、最終的な変数セットは、上記の検討を踏まえて、研究者自らが決めて、強制投入法を使って最終解析する。

変数選択を全部検定にゆだねてはいけない。

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

カテゴリ変数の設定方法

PCIが0回よりも1回、さらに2回以上が、長期予後が悪く、リスクが高いという結果になることが予想される。

この場合、A群を1、B群を2、C群を3にして参照カテゴリを「最初」にする方法がとれる。

つまり、A群(PCI 0回)を基準として、PCI 1回、PCI 2回以上のハザード比を計算するということだ。

上記の設定では、PCI 2回以上が基準になって、1回、0回のハザード比を計算することになっている。

長期成績予後不良の解析をしたいのであれば、予後良好を基準に予後不良が大きい値のカテゴリにするのがよい。

A群、B群、C群を3,2,1とするなら「最後」(つまり 3 を基準)のままに、A群、B群、C群を1,2,3と変更すれば「最初」(つまり 1 を基準)に変更して解析するということになる。

解析結果例(上記の例とは別の事例)

Cox 回帰メニューで、共変量にカテゴリ変数を入れたら、カテゴリボタンをクリック

共変量をカテゴリ共変量に投入する

参照カテゴリが最初になっているのを確認して続行をクリック

結果出力したのち、カテゴリ変数のコーディングで、最初のカテゴリ(つまり、ph_ecog = 0)が全部 0 の 3 つの変数が作成され、解析されていることを確認

これがダミー変数の自動作成である

方程式中の変数 表のカテゴリ部分で自由度 1 の変数が求める偏回帰係数と p 値が書いてある行である

ちなみに、自由度 3 の行は、自由度 1 の行 3 つをまとめて考えたときの統計学的有意性(このモデルの場合、3 つの変数のみなので、モデルの有意性ともいえる)の検定になっている

まとめ

Cox 回帰の変数選択は、変数増加法等を使って事前に検討しても構わないが、最終的には解析者が変数セット決めて、強制投入で解析を行うのがよい。

カテゴリ設定は、基準としたいカテゴリに小さい値を割り当て、基準を「最初」とするのが一番覚えやすく混乱しない方法である。

関連記事

toukeier.hatenablog.com

toukeier.hatenablog.com