一个 python + 数据预处理+随机森林模型 (案列)
本次使用的是 样本可以去 boci_trial_0423.csv 下载
也可以见文档
前言
这个是之前写的一个 python 的 + 随机森林模型例子,不适合初学者。
根据 百度百科的定义
随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。
定义 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 “Random Forests” 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 “Bootstrap aggregating” 想法和 Ho 的"random subspace method"以建造决策树的集合。 随机森林是一种包含很多决策树的分类器,既可以用于处理分类和回归问题,也适用于降维问题。其对异常值与噪音也有很好的容忍,相较于决策树有着更好的预测和分类性能。 [3]
学习算法
根据下列算法而建造每棵树 [1]: 1.用N来表示训练用例(样本)的个数,M表示特征数目。 2.输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。 3.从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。 4.对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。 5.每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。
准备
请先安装下面的库
pip install sklearn
pip install pandas
pip install joblib
一、python 代码
深度学习和强化学习都需要丰富的词汇来定义架构
import pandas