理论
集成模型
集成分类器模型是综合考虑多种机器学习模型的训练结果,做出分类决策的分类器模型
- 投票式:平行训练多种机器学习模型,每个模型的输出进行投票做出分类决策
- 顺序式:按顺序搭建多个模型,模型之间存在依赖关系,最终整合模型
随机森林分类器
随机森林分类器是投票式的集成模型,核心思想是训练数个并行的决策树,对所有决策树的输出做投票处理,为了防止所有决策树生长成相同的样子,决策树的特征选取由最大熵增变为随机选取
梯度上升决策树
梯度上升决策树不常用于分类问题(可查找到的资料几乎全在讲回归树),其基本思想是每次训练的数据是(上次训练数据,残差)组成(不清楚分类问题的残差是如何计算的),最后按权值组合出每个决策树的结果
代码实现
导入数据集——泰坦尼克遇难者数据
import pandas as pd
titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
print(titan.head())
row.names pclass survived \
0 1 1st 1
1 2 1st 0
2 3 1st 0
3 4 1st 0
4 5 1st 1
name age embarked \
0 Allen, Miss Elisabeth Walton 29.0000 Southampton
1 Allison, Miss Helen Loraine 2.0000 Southampton
2 Allison, Mr Hudson Joshua Creighton 30.0000 Southampto