1、R语言做随机森林分类首先需要安装randomForest函数包,打开RStudio主页面,找到倒数第二个“tools”菜单展开,点击“Install packages”,输入要下载的“randomForest”,点击安装,如图所示
2、randomForest函数包安装好之后,就可以分析数据了。本文以R语言自带数据为例,旨在介绍用法仅供参考。分析数据之前,需先下载randomForest及读取数据,部分数据截图如图所示,最右边一列为数据标签(类别)。
3、调用randomForest函数对训练样本进行训练,rfmodel既是训练后的模型。然后将数据去掉类别一列作为测试样本,如图所示
4、想要了解模型信息,如mtry、ntree、oob(袋外误差率)等,可以直接运行rfmodel打印模型信息:Call:之下的内容。若要了解各变量的的重要性则运行importance(rfmodel,2)即可输出变量权重。代码如图所示
5、另外随机森林也有两个参数mtry和ntree,这两个参数也可以有自己决定,最优组合既是OOB误差率最小。模型建立完成,就需要利用测试样本对模型进行检验,并输出模型的混淆矩阵来分析模型精度,如图所示,由混淆矩阵可以知,精度达到100%(固然是和原数据检验本身有关),说明随机森林性能还是挺优越的。
6、要想获得最优参数,一般采取的办法是遍历所有变量。分类:变量少还好,若是变量特征很多,遍历全部耗费巨大时间成本,这时mtry一般采取总特征的平方根,再来寻找最优ntree;回归:mtry一般采取总特征的三分之一,再来寻找最优ntree。