Rでランダムフォレストを行う方法重要度の可視化も

R でランダムフォレストを実行する方法。

＞＞もう統計で悩むのを終わりにしませんか？

↑1万人以上の医療従事者が購読中

ランダムフォレストとバギングの違い
R でランダムフォレストを実行するパッケージの準備
R のランダムフォレストで決定木を作る例
R でランダムフォレストを実行した結果重要な変数を表示する
まとめ

ランダムフォレストとバギングの違い

ランダムフォレストとバギングの違いは、こちらの記事を参照。

toukeier.hatenablog.com

R でランダムフォレストを実行するパッケージの準備

パッケージはrandomForestというそのままの名前のパッケージを使う。

最初に一回だけインストールする。

install.packages("randomForest")

使えるように呼び出しておく。

library(randomForest)

R のランダムフォレストで決定木を作る例

irisデータを使って、ランダムフォレストで決定木を作ってみる。

set.seed()でランダム変数のシードを設定しておき、再現性を持たせる。

Speciesをそれ以外の変数で予測する決定木を作成するスクリプトは以下の通り。

set.seed(71)
iris.rf <- randomForest(Species ~ ., data=iris)

結果は以下のように表示される。ランダムサンプリングを使って、決定木は500個作っている。エラー率は5.33%

Out Of Bag (OOB)とは、3分の1をテスト用に外しておいて学習して、テストデータの結果でConfusion matrixを作り検討していることを意味している。

> iris.rf

Call:
 randomForest(formula = Species ~ ., data = iris) 
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 2

        OOB estimate of  error rate: 5.33%
Confusion matrix:
           setosa versicolor virginica class.error
setosa         50          0         0        0.00
versicolor      0         47         3        0.06
virginica       0          5        45        0.10

＞＞もう統計で悩むのを終わりにしませんか？