2019-01-01から1年間の記事一覧
多重比較のサンプルサイズ計算を R で行う方法
がん患者さんの生存期間中央値を5年生存率から逆算で求めるにはどうしたらよいか? R で計算する方法。
R に組み込みのタイタニック号の生存・死亡データで、生存・死亡に関するロジスティック回帰分析と、独立変数の多重比較を実行してみる。
タイタニック号は、いまから100年以上前の1912年4月14日の夜、氷山に激突し、北大西洋の底に1,500名以上の命と一緒に沈んだ。 乗客乗員の生存・死亡のデータを用いて、ロジスティック回帰分析を実行してみる。
偏相関係数について。 順位相関係数は偏相関係数が計算できるか。
相関係数は、相関関係の強さを示す指標。 一方が大きいときにもう一方が大きければ、正の相関関係で、相関係数は1に近い。 一方が大きいときにもう一方が小さい場合は、負の相関関係で相関係数は-1に近い。 では、偏相関係数とは何か? 違いは何か?
回帰分析をする際に、説明変数や目的変数が正規分布をしていないことで悩んでいる人は多い。 悩むところはそこじゃない。 重回帰分析では、残差が正規分布している必要がある。
分散分析と回帰分析とt検定は同じものである。
多重共線性(たじゅうきょうせんせい)があるかどうかを確認する必要があるとはよく聞くが、確認して多重共線性があった場合はどうすればよいのか? 多重共線性とは?多重共線性はなぜ問題なのか?そして多重共線性を回避するにはどうすればよいか?について…
SPSS で Cox 回帰をする際の変数選択の方法とカテゴリ変数の設定の方法の解説
多変量モデルの変数選択について、悩まない人はいない。 どの変数を採用してどの変数を採用しないのか。 明確な基準はあるのか?
コレスポンデンス分析(対応分析とも言う) は、大きな分割表に集計されたデータを見やすくする分析方法。 二次元 つまり X軸とY軸に変換して、散布図にして傾向を見る。
対応分析は、コレスポンデンス分析とも言われる分析方法だ。 テキストマイニングでの対応分析では、どのグループでどんな発言が多かったかの傾向を図でつかむ方法。 KH Coder でどのように実施するかを解説。
階層的クラスター分析を KH Coder で行う方法
自己組織化マップは、ニューラルネットワークアルゴリズムのひとつである。 KH Coderで自己組織化マップを描くにはどうやったらよいか?
共起ネットワークとは、個々人のコメント間の共通性をネットワーク図にして示す方法だ。 TwitterのTweetを使って、無料で使えるテキストマイニングソフト KH Coder で共起ネットワーク図を描いてみた。
多次元尺度構成法は、多次元尺度法とも言われる。 テキストマイニングソフト KH Coderでは、出現パターンが似ている抽出語がどれなのかが一目でわかる散布図が描かれる。 多次元尺度構成法とはどんな方法か? KH Coderではどのような図が得られるか?
KH Coder では、階層的クラスター分析のクラスター化の方法として、ウォード法、群平均法、最遠隣法の3つから選べる。 ウォード法がデフォルト設定で、おすすめだ。 ウォード法とはどういう方法なのか?
競合リスク回帰とは、共変量調整をした競合リスク分析の方法。
競合リスクとは何か? Gray 検定の実行方法
Coxの比例ハザードモデル(コックスの比例ハザードモデル、Cox回帰、コックス回帰など表示・呼び名はたくさんあるが皆同じものを指している)は、生存時間とイベントデータを多変量解析できる統計モデルだ。 注目したい要因が、他の要因と相関があり、また他…
ログランク検定とは、生存時間解析で、二群以上のグループがある場合に、グループ間で統計学的に差があるかを検討する方法。 R での方法を解説。
Rでカプランマイヤー曲線を書く方法の紹介。 survfit を使ったグループごとの曲線の書き方。
Jaccard 係数は集合の類似度を表す指標で、テキストマイニングでは、文章と文章の類似度=距離を表す指標になる。 Jaccard係数を少し詳しく解説。
R で階層型クラスタリングを行う方法。
二次元でユークリッド距離を図示してみた。
ユークリッドは紀元前325年に生まれたギリシャの数学者。 著した著書は数学のなかでも特に幾何学の教科書として有名であった。 ユークリッドが考え出した「距離」とは?
クラスター分析とは何か? そもそも、クラスターって何?
フライス(Fleiss)のカッパ係数(kappa)は、3人以上の評価者の評価が一致している度合いを測定する係数。
二人の評価者のカテゴリ評価の一致度を見るのがいわゆるカッパ係数だ。 カッパはギリシャ文字のkのカッパ(κ)のこと。 Jacob Cohen先生が発明したので、Cohen's Kappaと呼ばれる。 これを R で計算してみようと思う。