多重共線性を回避するには？

多重共線性（たじゅうきょうせんせい）があるかどうかを確認する必要があるとはよく聞くが、確認して多重共線性があった場合はどうすればよいのか？

多重共線性とは？多重共線性はなぜ問題なのか？そして多重共線性を回避するにはどうすればよいか？についてまとめた。

＞＞もう統計で悩むのを終わりにしませんか？

↑1万人以上の医療従事者が購読中

多重共線性とは？
多重共線性があるとなぜ問題なのか？
多重共線性を回避するには？
- 1. その変数をモデルに投入するのをあきらめる
- 2. 主成分回帰 Principal Component Regression PCR を行う
まとめ

多重共線性とは？

回帰分析は、変数Xで変数Yを予測する式を作ることが目的だ。重回帰分析は変数Xが二つ以上の式を予測する。

変数Yを決める要因は色々あるはず。例えば、体重 Y は、身長と一番相関するが、当然食べる量に関係する。食べる量だけじゃなく、運動量も、筋肉量も、年齢も関係するはずだ。

いろいろな要因で体重を予測する式を作るのが重回帰分析。予測式ができれば、どれだけ食べたらどれだけ太るか予測できる。また、どれだけ動かないと、どれだけ太るか予測できる。

いろいろ体重に関係してそうな要因を選んでいくと、とても似ている要因が出てくる。

例えば、体重には、運動量も関係するし、筋肉量も関係する。そして、筋肉量と運動量がとても関係がある。運動量が多いと筋肉量も多い。運動量が少ないと筋肉量も少ない。この関係がとても強い場合、同時に考えることができない。

仮に、運動量と筋肉量が相関係数0.9だったとする。「とても強い関係」とは、相関係数0.9というようなレベル。相関係数1が最高なので、0.9はかなりのハイレベル。こんなときは同時に考えると数式が ”パンク” する。

予測式を作りたいいくつかの説明変数同士の相関係数が0.9などと高い場合、多重共線性のリスクがある。

多重共線性があるとなぜ問題なのか？

多重共線性があるとなぜ問題なのか？問題であることがわからなければ対処が必要に思えない。

多重共線性がある変数同士を一緒に多変量モデルに入れると、どちらか一方が逆の回帰係数になってしまう。現実とは逆になってしまうのだ。

先ほどの例で、体重と運動量が相関していて、運動量が多いと体重が少ない関係があるとする。また体重と筋肉量が相関していて、筋肉量が多いと体重が多いとする。そして、運動量に比例して筋肉量が多く、その関係が強いとする。

体重を運動量と筋肉量を含んだ多変量モデルで予測する式を作ると、運動量と体重、もしくは筋肉量と体重の関係が、元の関係性とは逆になってしまう。

体重を運動量と筋肉量を含んだ多変量モデルで予測すると、運動量も筋肉量も多いと体重が多いという結果になってしまったりする。または、どちらも少ないと体重が多いという結果になってしまったりする。

これはなぜかと言うと、体重と関係がある運動量と筋肉量がどちらかが相手を譲り合うからなのである。運動量との関係性を重視して、筋肉量との関係はバランスを取るくらいにしか使われない。もしくは筋肉量との関係性を重視して、運動量との関係性は重要視されない。計算上こういうことが起きる。バランスを取るために、回帰係数がゼロに近くなったり、符号が逆になったりする。

体重の変化をとてもよく説明する運動量があった場合、筋肉量の出番がなくなる。逆に体重を筋肉量がとてもよく説明してしまったら、運動量の入るスキがなくなってしまう。

運動量も筋肉量も体重と関係しているのに、それらが反映されない結果は望んでいない結果だ。これは運動量と筋肉量との間にも強い関係があるからなのだ。これが多重共線性の問題点だ。

＞＞もう統計で悩むのを終わりにしませんか？