转载请注明作者和出处:https://blog.csdn.net/weixin_45814668
知乎:https://www.zhihu.com/people/qiongjian0427
Git:https://github.com/qiongjian/Machine-learning/
运行环境:anaconda—jupyter notebook
Python版本: Python3.x
更多精彩内容,尽在微信公众号,欢迎您的关注:
1 基于数据集多重抽样的分类器
将不同的分类器组合起来的结果则被称为集成方法(ensemble method) 或者元算法(meta-algorithm)。
使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。
AdaBoost作为最流行的原算法的优缺点如下:
优点:泛化错误率低,易编码,可以应用在发部分分类器上,无参数调整。
缺点:对离群点敏感。
适用数据类型:数值型和标称型数据。
1.1 bagging:基于数据随机重抽样的分类器构建方法
自然汇聚法(bootstrap aggregating),也称为bagging方法&#