統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

欠損値のメカニズム

欠損値(欠測値も同じ)は、生じる理由や前提から考えて、3 つに分けられるという話

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

欠損値とは

本来取得したかったデータで、取得できなかったデータのこと

もともと取得できない・取得しなかったデータも同じ扱いなので、同じように欠損値と呼んでも問題ない

また、あり得ない値(身長に 0 や マイナスの値)を入れるということも行われていたが、いまは、欠損値であることを積極的に示す、数値とは違う値を入れておくことが多い

あり得ないとはいっても、0 や マイナスの値は、計算に参加できてしまうので、計算に参加できない特別な値がソフトウェアには便利である

エクセルの場合は空白にしておく、R であれば NA と書き入れる、などで、ピリオドを欠損値としているソフトウェアもある

欠損値の分類

欠損値は、その発生のメカニズムから 3 つに分けられる

  1. Missing completely at random (MCAR)
  2. Missing at random (MAR)
  3. Missing not at random (MNAR)

この 3 つである

順に説明していく

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

MCAR

MCAR は、発生の理由が完全にランダムな場合

なので、MCAR はうっかりミスみたいなもので、想定しにくい状況

例:

  • 治験のために来院したのだが、たまたま主要評価の検査値を測定し忘れ、再来院も実施しなかった

MAR

MAR は、欠損値の理由として、それまでの測定や他の変数と関係がある場合

Missing At Random なので、ランダムと思われるが、本当の意味でのランダムは、上記の MCAR のほうである

例:

  • 治験において、前回の測定結果で、悪化している人だけ、その次から欠損値になっている
  • ベースラインで、高齢の人だけ、ある時点から欠損値である

反復測定データの統計解析モデル、混合効果モデルは、この MAR を想定して計算していることになっている

MNAR

MNARは、欠損値になる時点の状況に関係しているのが、MNAR

例:

  • 治験において、今回体の状態が悪く、そのため来院できず、欠損値になった
  • 欠損値となった理由が、症状がなかったためで、あえて評価しなかった

まとめ

欠損値は、発生のメカニズムから、3 つに分けられる

そのうち Missing At Random(MAR)は、反復測定データを解析するモデルである混合効果モデルで前提となる考え方なので、覚えておくほうが良い

参考になれば

参考サイト

https://mstour.hatenablog.com/entry/2020/12/04/203708 https://mstour.hatenablog.com/entry/2021/03/03/210159

参考資料

https://www.pmda.go.jp/files/000161919.pdf

参考書籍

欠測データの統計科学