統計ER

R, EZR, SPSS, KH Coder を使ったデータ分析方法を紹介するブログ。ニッチな内容が多め

2019-01-01から1年間の記事一覧

多重比較のサンプルサイズ計算

多重比較のサンプルサイズ計算を R で行う方法

生存期間中央値の求め方 - 5年生存率から逆算で求める方法

がん患者さんの生存期間中央値を5年生存率から逆算で求めるにはどうしたらよいか? R で計算する方法。

R glm の後の多重比較

R に組み込みのタイタニック号の生存・死亡データで、生存・死亡に関するロジスティック回帰分析と、独立変数の多重比較を実行してみる。

タイタニックのデータを R で分析する方法

タイタニック号は、いまから100年以上前の1912年4月14日の夜、氷山に激突し、北大西洋の底に1,500名以上の命と一緒に沈んだ。 乗客乗員の生存・死亡のデータを用いて、ロジスティック回帰分析を実行してみる。

偏相関係数を計算したいとき

偏相関係数について。 順位相関係数は偏相関係数が計算できるか。

相関係数と偏相関係数の違い Rで計算する方法 ピアソンとスピアマンともに紹介

相関係数は、相関関係の強さを示す指標。 一方が大きいときにもう一方が大きければ、正の相関関係で、相関係数は1に近い。 一方が大きいときにもう一方が小さい場合は、負の相関関係で相関係数は-1に近い。 では、偏相関係数とは何か? 違いは何か?

重回帰分析の残差は正規分布している必要がある―SPSSでの確認方法もあり

回帰分析をする際に、説明変数や目的変数が正規分布をしていないことで悩んでいる人は多い。 悩むところはそこじゃない。 重回帰分析では、残差が正規分布している必要がある。

分散分析と回帰分析の違い t検定と回帰分析の違い

分散分析と回帰分析とt検定は同じものである。

多重共線性を回避するには?

多重共線性(たじゅうきょうせんせい)があるかどうかを確認する必要があるとはよく聞くが、確認して多重共線性があった場合はどうすればよいのか? 多重共線性とは?多重共線性はなぜ問題なのか?そして多重共線性を回避するにはどうすればよいか?について…

SPSS で Cox 回帰 変数選択の方法 カテゴリ変数のハザード比

SPSS で Cox 回帰をする際の変数選択の方法とカテゴリ変数の設定の方法の解説

多変量解析の変数選択について

多変量モデルの変数選択について、悩まない人はいない。 どの変数を採用してどの変数を採用しないのか。 明確な基準はあるのか?

R corresp の使い方―コレスポンデンス分析

コレスポンデンス分析(対応分析とも言う) は、大きな分割表に集計されたデータを見やすくする分析方法。 二次元 つまり X軸とY軸に変換して、散布図にして傾向を見る。

対応分析を KH Coder で実施する方法

対応分析は、コレスポンデンス分析とも言われる分析方法だ。 テキストマイニングでの対応分析では、どのグループでどんな発言が多かったかの傾向を図でつかむ方法。 KH Coder でどのように実施するかを解説。

階層的クラスター分析を KH Coder で行う方法

階層的クラスター分析を KH Coder で行う方法

自己組織化マップを KH Coder で書く方法

自己組織化マップは、ニューラルネットワークアルゴリズムのひとつである。 KH Coderで自己組織化マップを描くにはどうやったらよいか?

共起ネットワークとは? - KHCoderで共起ネットワーク図を描く方法

共起ネットワークとは、個々人のコメント間の共通性をネットワーク図にして示す方法だ。 TwitterのTweetを使って、無料で使えるテキストマイニングソフト KH Coder で共起ネットワーク図を描いてみた。

多次元尺度構成法を KH Coder で行う方法

多次元尺度構成法は、多次元尺度法とも言われる。 テキストマイニングソフト KH Coderでは、出現パターンが似ている抽出語がどれなのかが一目でわかる散布図が描かれる。 多次元尺度構成法とはどんな方法か? KH Coderではどのような図が得られるか?

ウォード法とは わかりやすく解説

KH Coder では、階層的クラスター分析のクラスター化の方法として、ウォード法、群平均法、最遠隣法の3つから選べる。 ウォード法がデフォルト設定で、おすすめだ。 ウォード法とはどういう方法なのか?

競合リスク回帰の解析方法

競合リスク回帰とは、共変量調整をした競合リスク分析の方法。

競合リスクとは? Gray 検定を R で行う方法

競合リスクとは何か? Gray 検定の実行方法

R coxph の使い方 ― 生存時間データの分析方法

Coxの比例ハザードモデル(コックスの比例ハザードモデル、Cox回帰、コックス回帰など表示・呼び名はたくさんあるが皆同じものを指している)は、生存時間とイベントデータを多変量解析できる統計モデルだ。 注目したい要因が、他の要因と相関があり、また他…

ログランク検定を R で行う方法

ログランク検定とは、生存時間解析で、二群以上のグループがある場合に、グループ間で統計学的に差があるかを検討する方法。 R での方法を解説。

R によるカプランマイヤー曲線の書き方 survfit を使ったグループごとの曲線 

Rでカプランマイヤー曲線を書く方法の紹介。 survfit を使ったグループごとの曲線の書き方。

Jaccard係数とは?― クラスタリングや共起ネットワークの類似度の指標

Jaccard 係数は集合の類似度を表す指標で、テキストマイニングでは、文章と文章の類似度=距離を表す指標になる。 Jaccard係数を少し詳しく解説。

R でクラスタリングを行う方法

R で階層型クラスタリングを行う方法。

ユークリッド距離 二次元表示

二次元でユークリッド距離を図示してみた。

ユークリッド距離とは? 求め方の例

ユークリッドは紀元前325年に生まれたギリシャの数学者。 著した著書は数学のなかでも特に幾何学の教科書として有名であった。 ユークリッドが考え出した「距離」とは?

クラスター分析とは?

クラスター分析とは何か? そもそも、クラスターって何?

カッパ係数 3 人以上の場合 フライスのカッパ係数 Fleiss' kappa

フライス(Fleiss)のカッパ係数(kappa)は、3人以上の評価者の評価が一致している度合いを測定する係数。

カッパ係数を R で計算する方法 Cohen’s Kappa

二人の評価者のカテゴリ評価の一致度を見るのがいわゆるカッパ係数だ。 カッパはギリシャ文字のkのカッパ(κ)のこと。 Jacob Cohen先生が発明したので、Cohen's Kappaと呼ばれる。 これを R で計算してみようと思う。