聚类
文章平均质量分 77
爱哭的猫ff
在校软件工程学生
展开
-
k--Means
前面我们大致介绍了一些回归、预测算法,它们都属于监督学习算法的范畴,今天我们将接触到一种无监督学习的算法k--Means算法。这个算法很好理解。k就代表要要分的多少个类,每个类都聚到一堆,怎么算同一类呢?既然同一类都到一堆了,肯定是根据距离来进行计算的。首先我们需要随机选取k个点,然后算出数据集中各个点距离哪一个点最近就属于那一类。一次遍历之后需要重新确定k个点的位置,再次遍历。直到符合最终条件为原创 2016-03-14 18:11:31 · 605 阅读 · 0 评论 -
k-Means(二分k-均值算法)
在上一节中我们已经讲了k-均值算法,当时我们选取的质心是随机选取的,没有什么依据,所以聚类的结果很可能出现误差,为了降低这种误差的出现我们今天来研究一种优化的k-均值算法----二分k--均值算法,看到名称我们就能明白在每次划分的时候都是将数据划分成俩份,直到达到我们要求的聚类数。怎么来分?选取哪一堆数据来分?需要我们计算,这里我们引入一个叫做误差平方和的指标,这个指标越小就代表所分的数据越准确。原创 2016-03-14 18:49:52 · 2391 阅读 · 0 评论 -
Apriori算法
在讨论这个算法之前需要知道什么是频繁项集以及关联规则,频繁项集是经常出现在一块的集合,关联规则是暗示两种物品之间有很强的关系。今天这个算法就是解决这个问题的,首先我们讨论频繁项集,支持度是频繁项集频繁的一个重要指标,支持度越高说明频繁程度越高。举个例子:比如有五组商品,其中出现某一种商品的次数是二,那么它的支持度就是2/5,如果某两种商品组合出现在一起的次数是1,那么它的支持度就是1/5,这就是支原创 2016-03-14 19:59:51 · 411 阅读 · 0 评论