統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

二項分布のグラフの書き方

二項分布のグラフを書いてみた

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

二項分布のグラフの前に 二項とは?

二項とは、0か1か、YesかNoか、表か裏か、など二つに一つが選ばれること。

二項分布は、二項の場合の分布という意味である。

二項分布のグラフを書いてみる

たとえば、10例で、確率5割のこと、10回コインを投げて、表裏どちらも確率5割、10回挑戦してみて、成功確率は五分五分。

このとき0回から10回までの、起きる確率、表の確率、成功確率をグラフ描画すると5回が最も確率が高くなる。

R での二項分布のグラフを書くスクリプトは以下の通り。

plot(x=0:10, y=dbinom(x=0:10, size=10, prob=0.5), type="h")

二項分布のグラフは以下の通り。

人数や試行の数を5、20、50の3パターンにする。それぞれ、成功確率を0.3、0.5、0.7とする。

全部で9パターンのグラフを描画する。

R のスクリプトは以下の通り。

layout(matrix(1:9,nr=3))

plot(0:5, dbinom(0:5, 5, 0.3), type="h", ylim=c(0,0.4))
plot(0:5, dbinom(0:5, 5, 0.5), type="h", ylim=c(0,0.4))
plot(0:5, dbinom(0:5, 5, 0.7), type="h", ylim=c(0,0.4))

plot(0:20, dbinom(0:20, 20, 0.3), type="h", ylim=c(0,0.4))
plot(0:20, dbinom(0:20, 20, 0.5), type="h", ylim=c(0,0.4))
plot(0:20, dbinom(0:20, 20, 0.7), type="h", ylim=c(0,0.4))

plot(0:50, dbinom(0:50, 50, 0.3), type="h", ylim=c(0,0.4))
plot(0:50, dbinom(0:50, 50, 0.5), type="h", ylim=c(0,0.4))
plot(0:50, dbinom(0:50, 50, 0.7), type="h", ylim=c(0,0.4))

グラフはこのように書ける。

人数や試行が大きくなると、正規分布に近づいていく。

正規分布に近づいていく性質を使って、母比率の推定は正規近似で行われていた。

>>もう統計で悩むのを終わりにしませんか?


↑1万人以上の医療従事者が購読中

二項分布はどう使うか?

二項分布は母比率の区間推定に使える。

人数や試行回数が大きくなると正規分布に近づくために、これまでは正規近似が用いられていた。

しかし、コンピューターを使えるようになって、近似を使う意味合いはなくなった。

R なら、binom.test()で簡単に計算できる。

50例中、35例がYesだったとする。

このときの95%信頼区間は、0.5539177~0.8213822と計算される。

> binom.test(35, 50)

        Exact binomial test

data:  35 and 50
number of successes = 35, number of trials = 50, p-value = 0.0066
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
 0.5539177 0.8213822
sample estimates:
probability of success 
                   0.7 

ちなみに正規近似で95%信頼区間を求めると、0.5729775~0.8270225と計算される。

> 0.7+c(-1, 1)*1.96*sqrt(0.7*(1-0.7)/50)
[1] 0.5729775 0.8270225

しかし、現代では、この計算方法は使用しなくてもよくなった。

まとめ

二項分布は、二項のうち一方が起きる回数の確率を表した分布。

試行回数が大きくなると正規分布に近づく。

R なら、二項分布を使った母比率の区間推定が binom.test() 関数で計算できる。

参考書籍