統計ER

統計ソフトRの使い方を中心に、統計解析方法の解説をするブログ。ありそうでなかなか見つからないサンプルサイズ計算などニッチな方法について紹介しています。

機械学習

統計ソフトRでサポートベクターマシンを使ってみよう!

統計ソフトRでサポートベクター分類器・サポートベクターマシンを使って機械学習させるにはどうすればよいか?

主成分回帰 PCR と部分最小二乗回帰 PLS はどうやる?

主成分回帰(Principal Component Regression, PCR)は、主成分分析と回帰分析の融合。主成分分析で情報の集約をして、変数を減らしてから回帰分析を行う方法。多重共線性が心配な変数同士が含まれていても、主成分得点に集約されるため問題がなくなる。 部…

リッジ、ラッソ、エラスティックネットで高性能な予測モデルを作る!

線形回帰モデルは、変数がたくさんあればあるほど、当てはまりのいい回帰式ができる。 当てはまりのいい回帰式の欠点は、新しいデータでの予測に使えないことだ。 予測性能に優れるモデルを作るのがRidge(リッジ)回帰とLASSO(ラッソ)回帰、Elastic net(…

サポートベクターマシンのコストパラメータCとは?

学習セットでばっちり分類できても、新しいデータではうまく分類できないのは、機械学習の本来の目的から適切ではない。 目的は、新たなデータでも学習セットと同じように適切に分類できる分類器を作ること。 目的を達成するために調整できるパラメータがあ…

サポートベクターマシンとは?

いまやコンピューターで自動的に分類する方法がたくさん開発されている。 自動分類の方法によって、 ・この電子メールはスパムメールかどうか ・この画像は男性か女性か ・この画像は食べ物かどうか などという分類に応用されている。 サポートベクターマシ…

ランダムフォレストのチューニングとは?

ランダムフォレストはチューニングして最適化する。 チューニングは決定木を最適化する方法。 ランダムフォレストの場合は、決定木の数と特徴量(説明変数)の数を最適化する。

統計ソフトRでランダムフォレストを行うには?

アンサンブル学習でポピュラーなのがランダムフォレスト。 統計ソフトRでランダムフォレストをやってみた。

統計ソフトRでアンサンブル学習!バギングはどうやる?

アンサンブル学習を統計ソフトRでやってみよう! まずはバギング。 バギングはBootstrap Aggregatingの略。

ランダムフォレストとバギング、何がどう違う?

決定木をより汎用化するために考えられた、バギングとランダムフォレスト。 どこがどう違うのか? 概念的な簡単な説明。

統計ソフトRで決定木分析を行うには?

無料統計ソフトRで決定木分析のやり方をご紹介。 難しいプログラムが組めなくてもすぐに使える。

決定木の剪定 Cost-Complexity Pruningとは?

庭師の仕事ではないが、決定木には剪定(せんてい)という過程がある。 剪定とは何か? 簡単に紹介。

決定木はどのように分岐を作っていくのか?

決定木の分岐(ノード)を作るときどのような計算をしているのか? Gini不純度を計算している。 Gini不純度とは何か? 簡単に紹介。

機械学習で決定木(デシジョンツリー)を作る基本的な考え方

機械学習をする方法はさまざまある。 代表的な方法は決定木(けっていぎ) デシジョンツリー Decision Tree そもそも決定木とは何か? 基本的なことをごく簡単に解説。

統計ソフトRのISLRパッケージWeeklyデータの分析例

機械学習で、よりよく推測できるモデルを選ぶ。 統計ソフトRのISLRパッケージのWeeklyデータで基礎的な機械学習を行ってみた。