標準正規分布表はどうやって見ればいいのか?

にほんブログ村 科学ブログ 数学へ

標準正規分布表って、 どうやって見たらいいんだろうと、 悩んでいるあなた。

そもそも何を意味しているのか、 どんなときに使うのかさっぱりわからない、 というあなた。

そんなあなたを助ける、 標準正規分布表の見方。

よくある課題での使い方も公開。

標準正規分布表はどう見ればいいの?

標準正規分布はどんな分布?

標準正規分布表はたとえば、こういう表

ここに書いてある数字はいったい何なのか?

これは割合を表している。

標準正規分布は横軸0を中心に左右対称でベル型の曲線。

curve(dnorm(x), -4, 4, las=1, xlab="Z")

横軸0から、 例えば1までと、 曲線でかこまれた、 台形みたいな形の面積が割合。

curve(dnorm(x), -4, 4, las=1, xlab="Z")
arrows(0,0,0,dnorm(0),length=0)
arrows(1,0,1,dnorm(1),length=0)
xvalu <- seq(0,1,length=200)
dvalu <- dnorm(xvalu)
polygon(c(xvalu, rev(xvalu)), c(rep(0,200), rev(dvalu)),col="skyblue")

横軸とベル型曲線で囲まれた部分の面積は1。

全体が1だから、中央の横軸0から右へ無限大にいったところで、0.5になる。

curve(dnorm(x), -4, 4, las=1, xlab="Z")
arrows(0,0,0,dnorm(0),length=0)
xvalu <- seq(0,4,length=200)
dvalu <- dnorm(xvalu)
polygon(c(xvalu, rev(xvalu)), c(rep(0,200), rev(dvalu)),col="palegreen")

標準正規分布表はどう見ればいい?

横軸をZと呼んでいて、標準正規分布表には、 「Zが0からいくつまでの面積」が書かれている。

表の左端の列がZの小数点第1位までを示していて、 表の上端の行がZの小数点第2位を示している。

Zが1.96のときは、左端で1.9を見つけて、 そのまま右に進み、0.06の列が Zが0から1.96までの面積になる。

表はこちらからお借りした。

.4750とあるのは、 0.4750の最初の0が省略されている。

つまり、Zが1.96のときに、 0とはさまれた区間の面積=割合が 0.475であるということ。

Zがー1.96から1.96の間の割合は 0.4750の2倍の0.95になる。

これが統計学でよく出てくる「95%」の由来だ。

curve(dnorm(x), -4, 4, las=1, xlab="Z")
xvalu <- seq(qnorm(0.025),qnorm(0.975),length=400)
dvalu <- dnorm(xvalu)
polygon(c(xvalu, rev(xvalu)), c(rep(0,400), rev(dvalu)),col="#ffff99")
arrows(0,0,0,dnorm(0),0)
arrows(qnorm(0.975),0,qnorm(0.975),dnorm(qnorm(0.975)),0)
arrows(qnorm(0.025),0,qnorm(0.025),dnorm(qnorm(0.025)),0)

標準正規分布で割合がわかると何がいい?

標準正規分布で使うZは標準化された値と言う。

Z値、Z得点、Zスコア、標準化得点、標準化スコア、など、 さまざまに呼ばれるが、全部同じで、要するに標準化された値。

標準化された値とは何か?

それは、平均と標準偏差によって標準化された値。

標準化された値は、正規分布するデータで使う。 例として、男子高校生の身長データで話をする。

標準正規分布を使う正規分布データを用意

身長のデータは正規分布をする。

平均は約170cm。標準偏差は約5。 平均を中心に左右均等に裾を引いた釣り鐘型の分布になる。

ヒストグラムにするとこんな感じ。

height <- rnorm(1000, mean=170, sd=5)
hist(height)

ヒストグラムを割合にして、 正規分布曲線を重ねると、こんな感じ。

hist(height, freq=F, ylim=c(0,0.08))
curve(dnorm(x, mean=170, sd=5), 150, 190, las=1, xlab="Z", xaxp=c(150,190,8), add=T)
arrows(170, 0, 170, dnorm(170, mean=170, sd=5), length=0)

 

正規分布データを平均と標準偏差を使って標準化する

例えば、

身長180cmの人は、 平均170cm、標準偏差5の分布の中で、 上から何パーセントか?

という設問に答えらえる。

curve(dnorm(x, mean=170, sd=5), 150, 190, las=1, xlab="Z", xaxp=c(150,190,8))
xvalu <- seq(180,190,length=100)
dvalu <- dnorm(xvalu, mean=170, sd=5)
polygon(c(xvalu, rev(xvalu)), c(rep(0,100), rev(dvalu)),col="#ffd1d1")
arrows(180, 0, 180, dnorm(180, mean=170, sd=5), length=0)
hist(height, freq=F, add=T)

標準化の方法はすごく簡単。

標準化したい値から平均を引く。 標準偏差で割る。おわり。

つまり、

$$\frac{180-170}{5} = 2$$

ということ。

標準化とは、平均0、標準偏差1にすることを言う。

データ全部に標準化を行うと、 平均を引いているので、平均を取ると0になっている。 標準偏差で割っているので、標準偏差は1になっている。

もともとの標準偏差が5なら、

$$\frac{5}{5} = 1$$

ということだ。

標準化した値を使って標準正規分布をどう使うか?

2が180を平均170、標準偏差5で標準化した値。

つまりZ=2。

Zが2のときの、標準正規分布表の数字、 つまり、Z=0からの面積を見てみる。

先ほどの標準正規分布表の左端で、2.0を見つけて、 上端が0のセルを見ると.4772。

知りたいのは180cmは上から何パーセントか?なので、 0から無限大までの合計0.5から0.4772を引いた値で、 0.0228。つまり、2.28パーセント。

背の高いほうから2.5パーセントに入るということは、 180cm以上はまれであることがわかる。

まとめ

標準正規分布表の見方や使い方を紹介した。

  • 標準正規分布表は横軸と曲線に囲まれた面積が書かれている。
  • 横軸0からある値までの面積であり、それは割合である。
  • 正規分布上の値を標準化して、標準正規分布上の割合で考える。