数据挖掘专题
文章平均质量分 61
ymkrdfewxf
生活多点激情,多点欢乐,多点挑战,多点精彩
展开
-
海量数据聚类算法综述
这是提交给研讨会论文的一部分:国内外研究现状,希望读者在写文章时不要照抄,这都是我自己看了文章后写的 国内外研究现状:处理海量数据难处在于数据量过大,不可能一次性将所有的数据都放入内存,所以将会导致多次读取磁盘,这样严重影响聚类算法的性能。目前有三种比较流行的方法来解决这个问题。一是从数据集中选取合适的子集来进行聚类,从子集中找到每个簇的中心,然后将剩下的样本归入到离其最近的簇。但是很难原创 2012-09-27 10:04:19 · 8526 阅读 · 2 评论 -
聚类算法总结
讲聚类算法,首先就理解几个聚类里面的专有词,让我们先回顾下这些关键词的定义. 一个簇是一组数据对象的集合,在同一个簇中的对象彼此类似,而不同的簇中的对象彼此相异。将一组热处理或者抽象对象分组为类似对象组成的多个簇的过程被称为聚类。 聚类分析有很广泛的应用,包括市场或客户模式识别,生物学研究,空间数据分析,web文档分类。 聚类算法有很多:具体可以分为划分、层次、基于密度、基于网格、及基于模型原创 2012-09-28 10:30:12 · 1332 阅读 · 0 评论 -
对数据挖掘应用的一点思考
前面的文章展示了许许多多的算法,但是这些算法哪些能用在实际中呢?对不同的情况,现在有大量的数据挖掘算法供我们选用,分类时是选择决策树,还是贝叶斯或者支持向量机,这要与要处理的情况相匹配。如果是高维数据且训练数据较少时,应当选择支持向量机比较好,或许在处理较简单的分类时,决策树可能效果比较好。可能有的时候根本无法确认哪个好,所以就有人提出集成学习的概念,既然不晓得哪个好,那就投票,通过几轮投票来决定原创 2012-09-28 11:16:07 · 773 阅读 · 0 评论 -
推荐系统较好的总结
来自于:http://blog.sina.com.cn/s/blog_602feaa80100fjq9.html 在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、基于内容推荐 基于内容转载 2012-09-28 14:00:44 · 1253 阅读 · 0 评论 -
我之观分类算法
前一篇文章阐述了决策树分类算法不足的根本原因,可是我写得这么乱,想必比较难看明白吧。归结到一点,我觉得,就是不能把属性看成一个整体去处理,属性是属性值的一个集合,应当把集合中每个元素当成最终要处理对象。不管他了,有空再去整理下。 分类的算法有很多,较好的贝叶斯,朴素贝叶斯算法虽说大家都说他的那个属性之间独立性的假设,限制了其应用范围,降低了在特定情况下的准确率,但他确实是一个非常不错的算法原创 2012-09-26 15:29:52 · 3376 阅读 · 0 评论 -
关联规则算法 简述
Apriori算法最核心的思想就是:频繁项集的所有非空子集都必须是频繁的。 所以k+1项频繁集必定是k项频繁集的并集。 因为K项频繁集的并集是可数的,也就是有限的,这样就可以对新形成的k+1项集进行判定,判断其是否是频繁的。 这样做比起穷举频繁集,然后一一验证好得多,每一级的频繁集都依赖于前一级频繁,这一过程过滤了许多非频繁集的计算。 然而每验证k项频繁集均需要扫描一次一数据集,当数据集较原创 2012-09-18 23:19:40 · 926 阅读 · 0 评论 -
决策树算法领悟
决策树算法依据训练数据生成一棵树,选择分裂属性时,以其分裂后,每个子集的标记的分布来综合情况来判断选定其的好坏。一般情况下,分裂后的子集标记分布越纯越好,最好的情况就是只包含一种标记,最坏的情况是一个一半,这只是单个子集的评价,整个属性的评价还需要将各个子集的情况合并起来。 ID3算法采用熵来作为子集的评价标准,但是其评价整个属性采用的是加权平均的方案,我认为加权平均是不太好的一种方案,举一个例原创 2012-09-19 23:36:22 · 382 阅读 · 0 评论