《机器学习实战》整理--无监督学习(3)

前面已经总结了监督学习中的几大算法,下面开始总结无监督学习算法。在无监督学习中,类似分类和回归中的目标变量事先并不存在,要回答的问题是“从数据X中能发现什么”,比如“构成X的最佳6个数据簇都是哪些?”或者“X中哪三个特征最频繁共现”,也就是说我们需要发现X的结构是什么。

K均值(K-means)
优点:容易实现
缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢
使用数据类型:数值型数据
K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。聚类的对象越相似,聚类的效果越好。相似这一概念取决于所选择的相似度计算方法(实例中使用的是欧式距离)。工作流程:首先,随机确定k个初始点作为质心,然后将数据集中每个点分配到一个簇中,具体来讲,为每个点找距其最近的质心,并将其分配给该质心所对应的簇,完成这一步后,每个簇的质心更新为该簇所有点的平均值。
评价指标:SSE(sum of squared error,误差平方和),即各点到其簇质心的距离平方之和。但K均值方法有时候会收敛到局部最优解而不是全局最优解,这取决于初始质心的位置,由此改进的一种方法是二分K-均值算法。该算法首先将所有点作为一个簇,然后将该簇一分为二,之后选择其中一个簇继续划分,选择哪一个簇进行划分取决于是否可以最大程度降低SSE的值,上述基于SSE的划分不断重复,直到得到用户指定的簇数目为止。

使用Apriori算法进行关联分析
优点:易编码实现
缺点:在大数据集上可能较慢
使用数据类型:数值型或标称型数据
从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习,这些关系可以有两种形式:频繁项集或者关联规则,频繁项集是经常出现在一块的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。定义频繁的项集的参数是支持度,支持度被定义为数据集中包含该项集的纪录所占的比例,可以定义一个最小支持度,而只保留满足最小支持度的项集。可信度或置信度(confidence)是针对一条诸如{尿布}—>{葡萄酒}的关联规则来定义的。这条规则的可信度被定义为“支持度{尿布,葡萄酒}/支持度{尿布}”。如果要计算出所有这些参数来定义频繁项集和关联规则,那么计算量未免太大了,因此使用了Apiori原理,该原理会减少关联规则学习时所需的计算量。
Apiori原理是说如果某个项集是频繁的,那么它所有的子集也是频繁的,反过来看,如果一个项集是非频繁集,那么它所有超集也是非频繁的。在代码实现中,我们只对频繁项集继续合并求其支持度,对那些不频繁项不再计算其超集的支持度。
每个频繁项集可以产生许多关联规则,这样的计算量是很大的。可以观察到:如果某条规则不满足最小可信度要求,那么该规则的所有子集也不会满足最小可信度要求。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值