機械学習
統計ソフトRでサポートベクター分類器・サポートベクターマシンを使って機械学習させるにはどうすればよいか?
主成分回帰(Principal Component Regression, PCR)は、主成分分析と回帰分析の融合。主成分分析で情報の集約をして、変数を減らしてから回帰分析を行う方法。多重共線性が心配な変数同士が含まれていても、主成分得点に集約されるため問題がなくなる。 部…
線形回帰モデルは、変数がたくさんあればあるほど、当てはまりのいい回帰式ができる。 当てはまりのいい回帰式の欠点は、新しいデータでの予測に使えないことだ。 予測性能に優れるモデルを作るのがRidge(リッジ)回帰とLASSO(ラッソ)回帰、Elastic net(…
学習セットでばっちり分類できても、新しいデータではうまく分類できないのは、機械学習の本来の目的から適切ではない。 目的は、新たなデータでも学習セットと同じように適切に分類できる分類器を作ること。 目的を達成するために調整できるパラメータがあ…
いまやコンピューターで自動的に分類する方法がたくさん開発されている。 自動分類の方法によって、 ・この電子メールはスパムメールかどうか ・この画像は男性か女性か ・この画像は食べ物かどうか などという分類に応用されている。 サポートベクターマシ…
ランダムフォレストはチューニングして最適化する。 チューニングは決定木を最適化する方法。 ランダムフォレストの場合は、決定木の数と特徴量(説明変数)の数を最適化する。
アンサンブル学習でポピュラーなのがランダムフォレスト。 統計ソフトRでランダムフォレストをやってみた。
アンサンブル学習を統計ソフトRでやってみよう! まずはバギング。 バギングはBootstrap Aggregatingの略。
決定木をより汎用化するために考えられた、バギングとランダムフォレスト。 どこがどう違うのか? 概念的な簡単な説明。
無料統計ソフトRで決定木分析のやり方をご紹介。 難しいプログラムが組めなくてもすぐに使える。
庭師の仕事ではないが、決定木には剪定(せんてい)という過程がある。 剪定とは何か? 簡単に紹介。
決定木の分岐(ノード)を作るときどのような計算をしているのか? Gini不純度を計算している。 Gini不純度とは何か? 簡単に紹介。
機械学習をする方法はさまざまある。 代表的な方法は決定木(けっていぎ) デシジョンツリー Decision Tree そもそも決定木とは何か? 基本的なことをごく簡単に解説。
機械学習で、よりよく推測できるモデルを選ぶ。 統計ソフトRのISLRパッケージのWeeklyデータで基礎的な機械学習を行ってみた。