統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

重回帰分析の目的変数は正規分布していなくて本当に大丈夫か?

以前に、重回帰分析の目的変数は正規分布している必要はないとのブログ記事を書いた

しかし、本当にそうなのだろうか?

自信がなくなってきたので、調べてみた

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

重回帰分析では残差が正規分布している必要があるとした過去記事

過去に重回帰分析では、目的変数ではなく、残差が正規分布している必要があるとした記事を執筆した

toukeier.hatenablog.com

toukeier.hatenablog.com

しかしながら、目的変数は本当に正規分布していなくてもいいのか?という確認の質問は絶えない

だんだん自信がなくなってきたため、再度、調べてみることにした

今度は、目的変数が正規分布している必要があるとする証拠を並べてみようと思う

統計解析ソフトから見た目的変数正規分布必要説

R, R コマンダー, EZR の場合

R (R コマンダー, EZR) では、一般化線形モデル(GLM)や一般化線形混合モデル(GLMM)で、連続データを目的変数にしようとする場合、family = gaussian と指定する

この gaussian というのはガウス分布という意味で、つまりは、正規分布の意味である

ということは、目的変数が正規分布であることを要求しているように見える

ただし、ヘルプを見ても、統計学的な必要要件かどうかは不明である

二値カテゴリカルデータやカウントデータと区別するための記載のようにも思える

ちなみに、二値カテゴリカルデータの場合は、binomial で二項分布、カウントデータの場合は、poisson でポアソン分布をそれぞれ指定する

SPSS の場合

一般化線型モデル(GLM)、一般化線型混合モデル(GLMM)、いずれのメニューにおいても、分布 → 正規が登場する

ただし、こちらも、ヘルプを見ても、統計学的な必要要件かどうかは不明であるのは、R と同じである

事実として、この代表的な統計解析ソフトウェアにおいて、GLM や GLMM で、単なる連続データを用いて線形回帰を行おうとすると、目的変数の分布について、正規分布と指定することになる

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

教科書の記述の引用

それでは、いつも私が愛用している教科書にはどのように書いてあるか引用してみる

まずは、丹後先生の「医学への統計学」の記述である

(単)回帰直線の検定と信頼区間のセクションの記載である

... "変量 X の誤差は無視できるくらい小さい"という前提である X に対して、変量 Y は、正規分布をしており、その平均は母回帰直線  y = \alpha + \beta x 上にあり、誤差分散  \sigma_E^2X に無関係に同一 である

ということで、それぞれの X に対してだが、目的変数が正規分布をしていることが前提との記載になっている

重回帰分析のセクションでは、以下のように、誤差が正規分布している前提という記載になっている

 y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon, \varepsilon \sim N(0, \sigma_E^2)

次に、久保先生の「データ解析のための統計モデリング入門」の「何でも正規分布」「何でも直線」には無理があるというセクションの記述である

直線回帰は GLM の一部なので、そこで使われている統計モデルの特徴を列挙してみましょう:
・観測値  {x_1, x_2, \cdots, x_n} {y_1, y_2, \cdots, y_n} のペアがあり、 \boldsymbol{X} = {x_i} を説明変数、 \boldsymbol{y} = {y_i} を応答変数とよぶ
 \boldsymbol{Y} は平均  \mu_i標準偏差  \sigma正規分布に従うと仮定する
・あるデータ点  i において、平均値が  \mu_i = \beta_1 + \beta_2 x_i となる
このように整理すると直線回帰に使われる統計モデル LM が GLM の一部であることがよくわかります。

ここでも、直線回帰(線形回帰、重回帰と同じ)では、応答変数(目的変数)が正規分布していることが前提である記載になっている

対馬先生の「SPSS で学ぶ医療系多変量データ解析」には以下の記載がある

重回帰分析はパラメトリックな手法であり、基本的に従属変数、独立変数ともすべて正規分布に従うことが望ましいといわれるが、じつは誤差  e_j が 平均 0、分散 1 の正規分布に従わなければならないのである。現実のデータでは、なかなか難しいときもある。ときには名義尺度のデータを入れなければならないときもある。これがどの程度まで許容されるかに関しては、明確な知見がない現状であるが、多少含まれている程度であれば、ほとんど問題がない。

こちらは、誤差の正規分布性の必要性が明記されている

ちなみに、説明変数は、ダミー変数(0/1 の二値カテゴリカルデータ)を投入する計算が認められているという点で、正規分布である必要性はない

結局、教科書的な書籍を 3 冊見ただけではクリアにはわからないことがわかる

重回帰分析の目的変数は正規分布している必要があるかについて議論している論文

では、学術論文ではどうなのか

こちらの論文は、目的変数が正規分布しないことが多い眼科分野における目的変数正規分布必要かどうかレター

Are Linear Regression Techniques Appropriate for Analysis When the Dependent (Outcome) Variable Is Not Normally Distributed? | IOVS | ARVO Journals

ポイントは 2 点で、

  1. 目的変数よりも誤差(残差)が正規分布している必要がある
  2. サンプルサイズが巨大(> 3000)であれば、気にしなくてよくなる

ということである

また、以下の論文は、誤差分散が非正規であった場合どうすべきか、という論文である

誤差分布の非正規性の処理

そもそも、目的変数のことには触れておらず、正規分布を問題にするのは誤差なのだという暗黙の了解で書かれている論文と思われる

そして、以下の論文は、後述する 2002 年の論文における 2 つの misconceptions (誤認)に対して批判をしている

Assumptions of Multiple Regression: Correcting Two Misconceptions

そのうちの一つが

"Regression assumes that variables have normal distributions."

である

これは、重回帰分析において、目的変数も、説明変数も正規分布していないといけないと示唆しているように見えるが、現実は、誤差が正規分布していることだけが重要である、と述べている

それでは、批判の的になっている、2002 年の論文を見ると、確かにそのように思えるような記載になっている

Four Assumptions of Multiple Regression That Researchers Should Always Test

Variables Are Normality Distributed.
Regression assumes that variables have normal distributions. Non-normality distirubuted variables ... can distorted relationships and significant tests.

正規分布の変数の例として、きわめてゆがんだ(skewed)、もしくは、とがった(kurtotic)分布をしている変数、影響力を持つ外れ値を含む変数という例を挙げている

この論文が、20 年前に世に出てから、一世を風靡したらしく、多くの人の心に刺さってしまったようなのだ

そして、私はもっていないので確認していないが、数式を使わずに解説する系の初学者向けの書籍にも反映されてしまったのではないか?

「重回帰分析において変数は正規分布していなければいけない」

なので、「目的変数が(もしくは 説明変数が)正規分布していないのですが、どうしたらよいでしょうか?」という質問が絶えないのではないか?

まとめ

重回帰分析の目的変数は本当に正規分布していなくていいのか?というチャレンジを何度も受けるので、改めて調べてみた

ソフトウェアの記載や教科書の記載を見ると、目的変数が正規分布している必要がありそうな記載もある

しかしながら、学術論文では、目的変数が正規分布している必要性は、むしろ明確に否定されており、誤解を与えるような記載に対して、批判が展開されていることが確認できた

よって、結論は変わらず、重回帰分析の目的変数が正規分布していることは、必要条件ではないことが確認できたと考える

参考書籍

参考文献

Are Linear Regression Techniques Appropriate for Analysis When the Dependent (Outcome) Variable Is Not Normally Distributed? | IOVS | ARVO Journals

誤差分布の非正規性の処理

Assumptions of Multiple Regression: Correcting Two Misconceptions

Four Assumptions of Multiple Regression That Researchers Should Always Test