算法
文章平均质量分 58
一只叫不二的龙猫
这个作者很懒,什么都没留下…
展开
-
Adaboost算法
提升方法要解决两个问题:1、每一轮如何改变训练数据的权值和分布;2、如何将弱分类器组合为一个强分类器Adaboost算法思想:解决问题一: 提高前一轮弱分类器错误分类样本的权值,降低弱分类器正确分类样本的权值,这样在下一轮训练中上一轮被错误分类的样本会得到更多关注;解决问题二:加权多数表决法,加大分类误差率小的弱分类器的权重,减小分类误差率大的弱分类器的权重。算法过程:(1)初...原创 2018-12-21 19:56:58 · 342 阅读 · 0 评论 -
Bagging(并行式集成学习方法代表)和随机森林(Bagging的一个扩展变体)
一、Bagging(1)基本思想初始训练集包含m个样本,自助采样法采用有放回抽样,合理性保证: ,即至少有近三分之一的初始训练样本不出现在训练样本子集中。 通过自助采样法采样出T个含m个样本的训练子集,然后在T个训练子集上训练T个基学习器,在组合这些基学习器,称为Bagging。(2)预测输出分类—投票法,若遇到同票情形,随机选取或进一步考察学习器投票置信度来决定分类...原创 2018-12-23 16:05:07 · 2738 阅读 · 0 评论 -
聚类学习(2)——k均值算法
一、原型聚类算法——假设聚类结构能通过一组原型刻画。(原型指样本空间中具有代表性的点)通常,算法对原型进行初始化,然后对原型进行迭代更新求解。不同的原型表示,不同的求解方式,产生不同算法。1、k均值算法给定样本集,“k均值”算法对聚类得簇划分为,最小化平方误差: ,其中是簇Ci的均值向量。一...原创 2018-12-29 10:50:16 · 1072 阅读 · 0 评论 -
聚类学习(1)——性能度量和距离计算
一、聚类任务。聚类是一种无监督学习,目标通过对无标记训练样本的学习揭示数据的内在性质及规律,为进一步的数据分析提供基础。聚类可以作为一个单独的过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。二、聚类性能度量,也称有效性指标对聚类结果,一需评估其好坏;二若明确最终要用的性能度量,可直接将其作为聚类过程的优化目标,得到更好地得到符合要求的聚类结果。目的:簇内...原创 2018-12-29 10:50:38 · 2282 阅读 · 0 评论 -
集成学习的结合策略
(1)为什么要集成学习器?从统计方面,降低因单一学习器误选导致的泛化性能不佳的风险;从计算方面,减低陷入糟糕局部极小点的风险;从表示方面,扩大假设空间,可能学得更好的近似。(2)几种常见的结合策略1、平均法——数值型输出常用结合策略简单平均法 加权平均法,要求权重非负且和为1一般,个体学习器性能相差较大时使用加权平均,性能相近时使用简单平均法(例:可以用测试集准确率判断...原创 2018-12-25 14:37:46 · 5181 阅读 · 0 评论