統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

SPSS で連続データをカテゴリ化する方法

連続データをルールで区切ってカテゴリカルデータを作る方法を SPSS で解説

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

SPSS で連続データをカテゴリカルデータにする方法 例 1 :変数の計算

年齢を 10 歳の区切りでカテゴリカルデータにしたい場合

10 で割って小数点以下を切り捨てるという方法を使う

まず、変換 → 変数の計算 を選択

目標変数に agec など適切な変数名を書く

数式に、算術の中の Trunc(1) を選択して、数式枠にダブルクリックで投入し、カッコ内に age / 10 と書く

Trunc(1) は、カッコ内の小数点を切り捨てるという関数である

age / 10 で年齢を 10 で割ると、61 歳が、6.1 になり、小数点以下を切り捨てると 6 という値になる

OK をクリックして、agec を作成した後、確認してみると、それぞれのカテゴリの最小値最大値が、何十歳代におさまっているのがわかる

これで、10 歳刻みのカテゴリカルデータに変換できた

SPSS で連続データをカテゴリカルデータにする方法 例 2 :他の変数への再割り当て

BMI のような、先行研究で区切りが決まっている場合

この場合は、変換 → 他の変数への値の再割り当て を使う

BMI を入力変数 -> 出力変数 の枠に投入する

変換先変数の名前を決める(例えば bmic )

変更をクリック

次に、今までの値と新しい値 をクリック

  • 18.5 未満を 1
  • 18.5 以上 25 未満を 2
  • 25 以上 30 未満を 3
  • 30 以上を 4

としたいとする

この場合、

範囲:最小値から次の値まで の枠に 18.49 を入力して、新しい値に 1 を入力して、追加をクリック

すると、以下のように、旧 -> 新の枠に、変換条件が追加される

次に、

範囲:何々から何々 とある枠に、18.50 と 24.99 を入力して、新しい値に 2 を入力して追加をクリックする

と条件が増える

25 以上 30 未満は同様に、新しい値 3 とする

最後、30 以上は、範囲:次の値から最大値まで の枠に 30.00 を入力して、新しい値 4 として、追加をクリックすると以下のようになる

続行をクリックして、OK をクリックすると新しいカテゴリ変数 bmic が作成される

グループごとの最小値最大値を確認すると以下のようになっている

カテゴリ 1 は、18.5 未満、カテゴリ 2 は 18.5 以上 25 未満、カテゴリ 3 は 25 以上 30 未満であることが確認できる

30 以上の人はおらず、カテゴリ 4 はいない

小数点第二位まで記述したので、境界の境目で欠損値になってしまう人はいないと思うが、念のため確認するなら、全症例数を確認しておくとよい

全症例は 36 例で、カテゴリ別の 3、31、2 の合計 36 例と一致している

症例全体の最小値最大値も一致しているので、問題ない

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

SPSS で連続データをカテゴリカルデータにする方法 例 3 :連続変数のカテゴリ化

カテゴリにする区切りが先行研究等で明らかではなく、恣意性を排除したい場合は、等分に分割するとよい

三分位、四分位、五分位、程度がよくつかわれる

変換 → 連続変数のカテゴリ化 を選択する

等分割する変数を ビン分割する変数 へ投入する

分割の数のことを ビン bin と呼ぶ

ビン分割する変数に変数名を入れ、分割点の作成をクリック

スキャンされたケースに基づく、等しいパーセンタイルを選び、三分位( 3 分割)であれば、分割点の数に 2 と入力する

すると、自動で幅のほうに、33.33 が入力される

適用をクリック

ヒストグラムに区切りが表示される

OK をクリックするとカテゴリ変数が作成される

最小値最大値を確認してみると、こんな感じになっている

ちょうど 12 例ずつになっている

この方法を使うと、例 2 で実施した BMI のカテゴリ化がもっと簡単にできる

以下のようにグリッドに書き入れれば、適切に区切ってくれる

グリッドの境界の上限は 未満 にするのが一般的である

ビン分割したカテゴリ別の最小値最大値は、例 2 のやり方と同じ結果になる

もっとも、例 1 の年齢を 10 歳刻みに分割する方法も、このメニューを使えばできる

まとめ

SPSS で連続データをカテゴリカルデータにする方法を解説した

変数の計算を用いる方法、他の変数への再割り当てを用いる方法、連続変数のカテゴリ化を用いる方法の 3 つ

参考になれば

おすすめ書籍

SPSS医療系データ解析の定本

SPSSで学ぶ医療系多変量データ解析 第2版