統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

分散分析のサンプルサイズ計算―pwr.anova.test()を使う方法

分散分析のサンプルサイズ計算を統計ソフトRで行う方法を解説。分散分析は三群以上の平均値を比較する分析方法。少なくともどれか一つの群がほかの群とは異なることを証明するための分析方法だ。

反復測定分散分析でグループ比較をしたいときに生じる疑問

複数回測定しているデータがあり、複数グループに分けられるとする。そうすると、反復測定分散分析を用いてグループ比較を行いたくなる。 反復測定分散分析でグループ比較を行いたいと思ったときに生じるいくつかの疑問に答える記事。 反復測定分散分析でグ…

ウェルチの検定 Welch's t-test

平均値の差の検定、いわゆるt検定は、等分散かどうかなんて気にしないでいい。 どんな時もウェルチの検定を行えばいい。

おすすめ統計本―医学統計を中心に

統計ER的おすすめ統計本のリストアップ。 このブログでたびたび参考書籍として登場している本を厳選してチョイス。

統計ソフトRでサポートベクターマシンを使ってみよう!

統計ソフトRでサポートベクター分類器・サポートベクターマシンを使って機械学習させるにはどうすればよいか?

割合の差の検定のサンプルサイズ計算

二群の割合を比較したいときは割合の差の検定を使う。割合の差の検定を使う場合のサンプルサイズ計算はどのようにすればいいか? 統計ソフトRでやってみるとどうなるか? エクセルではできないか?

Clopper-Pearson法で割合の信頼区間を計算するには?

割合の信頼区間の推定法としてClopper-Pearson法というものを目にしたので、簡易的な割合の信頼区間推定法とどう違うのか統計ソフトRで計算してみた。

統計ソフトRのパッケージをsourceからインストールする方法とBioconducorのパッケージの場合

統計ソフトRはパッケージを追加すると新しい機能が追加できる。その方法もとても簡単だ。 統計ソフトRのパッケージの追加方法として例外的な方法があることを知ったので、共有したい。

時系列データ「ドル円レート」を分析してみた!

時系列データとは何か?時系列データを分析する方法は? 日時と値が得られていて、その後の予測をしたい場合、時系列データ分析を検討されたし。

成人喫煙率はいつゼロパーセントになるか?

成人の喫煙率は年々減少している。 このままだと近い将来ゼロパーセントになりそう。 実際のところ、いつごろゼロパーセントになるか。 時系列データをもちいた未来予測を行ってみたい。

Bonferroni 型 多重比較のサンプルサイズ計算 - 統計ソフトRのスクリプト

三群以上の平均値や割合の差を比較したいデザインの場合、サンプルサイズはどのようにすればよいか? Bonferroni (ボンフェローニ)型の比較は、保守的過ぎて有意水準が厳しすぎるとは言われるが、逆にBonferroniの条件を満たすサンプルサイズなら、HolmやH…

生存期間中央値の求め方 - 5年生存率から逆算で求める方法

がん患者さんの生存期間中央値を5年生存率から逆算で求めるにはどうしたらよいか?統計ソフトRで実施してみた。

ロジスティック回帰&トレンド検定&多重比較 - 統計ソフトRでタイタニック号データの分析

統計ソフトRに組み込みのタイタニック号の生存・死亡データで、生存・死亡に関するロジスティック回帰分析と、独立変数の多重比較を実行してみる。 今から100年以上前の未曽有の大惨事の鎮魂を祈りつつ、解析してみる。

ロジスティック回帰分析 - 悲劇のタイタニック号データを統計ソフトRで分析

タイタニック号は、いまから100年以上前の1912年4月14日の夜、氷山に激突し、北大西洋の底に1,500名以上の命と一緒に沈んだ。 乗客乗員の生存・死亡のデータを用いて、ロジスティック回帰分析を実行してみる。 未曽有の事故のデータを胸に刻むべく、真摯に取…

Pearson ピアソン にすべきか、Spearman スピアマン にすべきか、それが問題だ。

偏相関係数について。順位相関係数にすべきかどうか。順位相関係数は偏相関係数が計算できるか。

相関係数と偏相関係数 - 統計ソフトRで計算

相関係数は、相関関係の強さを示す指標。一方が大きいときにもう一方が大きければ、正の相関関係で、相関係数は1に近い。一方が大きいときにもう一方が小さい場合は、負の相関関係で相関係数は-1に近い。 偏相関係数は、ともに関係しているほかの要因の影響…

回帰分析の説明変数や目的変数は正規分布していなくてもよいか?

回帰分析をする際に、説明変数や目的変数が正規分布をしていないことで悩んでいる人は多い。 どうして指導者は、「説明変数や目的変数が必ずしも正規分布していなくても大丈夫だよ」と教えてあげないのか?そして、論文査読者は「正規性はチェックしたのか?…

回帰分析の推定値と寄与率の計算 - 単回帰分析

説明変数Xで、目的変数Yを予測する回帰式を作り、回帰分析を行いたい。説明変数Xの目的変数Yに対する寄与率を計算したい。計算式のまとめ。

t検定、回帰分析・線形回帰、ANOVAは、みなつながっている

t検定(平均値の差の検定)、回帰分析・線形回帰、ANOVA(一元配置分散分析)はまったく別物だと思っているならば、ぜひ読んでみてほしい。 きっと目から鱗が落ちるはず。

多重共線性がある場合どうすればいいのか?

多重共線性(たじゅうきょうせんせい)があるかどうかを確認する必要があるとはよく聞くが、確認して多重共線性があった場合はどうすればよいのか? 多重共線性とは?多重共線性はなぜ問題なのか?そして多重共線性がある場合どのようにすべきかをまとめた。

Cox回帰において変数選択はどうやればいい?カテゴリ変数の設定は? - SPSSで統計解析

SPSSで、Coxの比例ハザードモデル、いわゆるCox回帰を実施したいという要望は多い。SPSSはクリック、クリックで解析が進められる扱いやすいソフトウェアだ。 変数選択に悩むことは多い。また、カテゴリ変数の設定に悩むこともある。どうやればいいか?

多変量モデルの変数選択について ‐ 雑感

多変量モデルの変数選択について、悩まない人はいない。 どの変数を採用してどの変数を採用しないのか。 明確な基準はあるのか? 変数選択のなやみという「闇(やみ)」から抜け出すことはできるのか?

対応分析 - 統計ソフトRで統計解析

対応分析 コレスポンデンス分析 correspondence analysis は、大きな分割表に集計されたデータを見やすくする分析方法。 二次元 つまり X軸とY軸に変換して、散布図にして傾向を見る。

対応分析でGSOMIA破棄からの日韓対立激化を分析! - KH Coderでテキストマイニング

対応分析は、コレスポンデンス分析 correspondence analysisとも言われる分析方法だ。 テキストマイニングでの対応分析では、どのグループでどんな発言が多かったかの傾向を図でつかむ方法。 テキストマイニングソフト KH Coder で実際にやってみたので共有。

KH Coderで階層的クラスター分析をするには?

テキストマイニングソフト KH Coder で、階層的クラスター分析を行うにはどうやったらいいか? 簡単にHow toをご紹介。

自己組織化マップ Self-organizing map を描く - KH Coderでテキストマイニング

自己組織化マップは、ニューラルネットワークアルゴリズムのひとつである。 KH Coderで自己組織化マップを描くにはどうやったらよいか?

共起ネットワーク - KH Coderによるテキストマイニング

個々人のコメント間の共通性をネットワーク図にして示す方法が共起(きょうき)ネットワークだ。 TwitterのTweetを使って、無料で使えるテキストマイニングソフト KH Coder で共起ネットワーク図を描いてみた。

多次元尺度構成法とは? - KH Coderでテキストマイニング

多次元尺度構成法は、多次元尺度法 Multi-Dimensional Scaling, MDS とも言われる。 テキストマイニングソフト KH Coderでは、出現パターンが似ている抽出語がどれなのかが一目でわかる散布図が描かれる。 多次元尺度構成法とはどんな方法か?KH Coderではど…

Ward法 ウォード法とは? - クラスター化の方法

テキストマイニングソフトウェアの KH Coder では、階層的クラスター分析のクラスター化の方法として、ウォード Ward 法、群平均法、最遠隣法の3つから選べる。 Ward法がデフォルト設定で、Ward法がおすすめだ。 Ward法とはどういう方法なのか?

競合リスク回帰とは?Competing Risk Regression

競合リスクの分析に共変量を入れるにはどうしたらいいか? 統計モデルを使った競合リスク分析。