决策树过拟合(对未知数据未必有很好的拟合能力)
处理方法:剪枝、随机森林
随机森林
做n棵树,解决过拟合问题,从理论上讲,数量大了,过拟合概率本身较低
平均下来,就不用考虑过拟合的问题(方法:Boostraping\Bagging)
Boostraping—通过本身数据集提高自身
Bagging—一般推荐结合决策树这种若分类器来进行分类
特点:随机选中的样本可能会出现有些样本很少被选中—OOB数据
样本不均问题
990个样本、10个有噪声的样本
①欠采样对于不均匀的样本,反复重采样可能会多次采到同一类的样本,放大噪声,造成模型训练的失败
②同时可以将990样本采用一些方法(聚类)取出10个样本与另外具有噪声的样本进行训练。
③随机插值得到新样本—数据合成的办法
决策树随机森林作为数据处理的方法
1.(判断相似性)
决策树做回归或是特征选择
决策树通过特征对样本进行分类后,通过特定标准(例如MSE)的计算,可以计算出一类样本的估计值,那么之后分类到这个类别的样本的预测值就都是此估计值(分类越细,预测越精细
(注:分类的分割部分采用斜线链接)
(样本的Y值中—有很多列很多个不同特征的预测值-多输出)