- 1. 集成学习概念
组合多个弱模型得到一个更好的强模型
- 2. 个体学习器概念
个体学习器集成学习的组成
- 3. boosting和bagging
个体学习器生成的方式有串行和并行两种,boosting算法是串行生成的代表算法,bagging是并行生成的代表算法
- 4. 结合策略(平均法,投票法,学习法)
平均法:对于预测任务,取各个学习器结果的平均值,或者加权平均值
投票法:对于分类任务,看哪一个类别得到更多学习器的支持,那就属于哪个类
学习法:当数据够多时可以采用学习法,将个体学习器的输出当作新的数据再训练学习器
- 5. 随机森林思想
将多个决策树合并在一起,每棵树的建立依赖于独立抽样的样本
- 6. 随机森林的推广
Extra Trees:每个决策树采用原始训练集,随机选择一个特征来划分决策树
Totally Random Trees Embedding:将低维数据映射到高维
- 7. 优缺点
优点:每棵树随机选择样本和特征,具有很好的抗噪能力,能处理高维的数据
缺点:参数复杂,模型训练和预测比较慢
- 8. sklearn参数2
import sklearn 导入
- 9.应用场景
数据维度相对较低(几十维),对准确性有一定要求