数据挖掘
文章平均质量分 79
Diehard_Yin
New blogs contents are posted here: https://medium.com/@lisulimowicz
展开
-
聚类算法总结
聚类算法总结:---------------------------------------------------------聚类算法的种类:基于划分聚类算法(partition clustering)k-means:是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据转载 2014-09-21 15:56:33 · 3379 阅读 · 0 评论 -
关联规则挖掘之Apriori优化
一、仔细看代码会发现如果要加入一个L4是很简单的。 计算L4的代码如下: /*construct C4...................................................*/ vector c4; vector l4; vector::iterator ite41=l3.begin();//iter 41,42 for(;ite41!=l3.en原创 2014-10-20 21:48:33 · 2080 阅读 · 0 评论 -
相似项发现(三)--LSH
四、文档的局部敏感哈希算法(LSH)即使可以使用最小哈希将大文档压缩成小的签名并同时保持任意对文档之间的预期相似度,但是高效寻找具有最大相似度的文档对仍然是不可能的。主要原因在于,即使文档本身的数目并不是很大,但是需要比较的文档对的数目可能很大。例如:假定有100万篇文档,每篇文档使用的签名的长度为250,则每篇文档需要250*4 bytes来表示签名。所有100万篇文档的签名数据占用1G原创 2014-10-20 21:07:16 · 1341 阅读 · 0 评论 -
相似项发现(一)
一个基本的数据挖掘问题是从数据中获得“相似原创 2014-10-20 20:10:56 · 2125 阅读 · 2 评论 -
相似项发现(二)--最小哈希矩阵的C++实现
按照相似项(#include using namespace std;int matrix[5][4] = { {1,0,0,1}, {0,0,1,0}, {0,1,0,1}, {1,0,1,1}, {0,0,1,0}};int SIG[2][4];void initSIG(){ for(int i=0;i<2;i++) for(int j=0;j<4;j++)原创 2014-10-20 20:24:33 · 1613 阅读 · 0 评论 -
关联规则挖掘
一、初步理解 关联规则是数据挖掘技术的一个活跃的研究方向之一,其反映出项目集之间有意义的关联关系。关联规则可以广泛地应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律。有效地发现、理解和运用关联规则是数据挖掘任务的一个重要手段。在处理大量数据时,很重要的一点是要理解不同实体间相互关联的规律。通常,发现这些规律是个极为复杂的过程。关联规则是一种十分简单却功能强大的、原创 2014-10-17 22:44:21 · 8711 阅读 · 0 评论 -
层次聚类(二)
一、层次聚类首先考虑欧式空间下的层次聚类。该算法仅可用于规模相对较小的数据集。层次聚类用于非欧式空间时,还有一些与层次聚类相关的额外问题需要考虑。因此,当不存在簇质心或者说簇平均点时,可以考虑采用簇中心点(clustroid)来表示一个簇。1.1 欧式空间下的层次聚类首先,每个点看作一个簇,通过不断的合并小簇而形成大簇。我们需要提前确定(1) 簇如何表示?原创 2014-10-31 10:06:17 · 1969 阅读 · 1 评论 -
数据挖掘总介与PageRank
一、数据挖掘原创 2014-09-30 15:58:51 · 2353 阅读 · 0 评论 -
聚类算法(一)层次聚类
聚类 聚类是对点集进行考察并按照某种距离测度将他们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间的距离较短,而不同簇中点之间的距离较大。一、聚类算法介绍层次法和点分配法。1.1 点、空间和距离点集是一种适合于聚类的数据集,每个点都是某空间下的对象。一般意义上,空间只是点的全集,也就是说数据集中的点从该集合中抽样而成。特别地,欧式空间下的点就是实数原创 2014-10-25 14:31:54 · 8108 阅读 · 2 评论 -
相似项发现(四)--LSH深入
可以对所有的行条使用相同的哈希哈数,原创 2014-10-22 10:28:24 · 1402 阅读 · 0 评论 -
数据挖掘与机器学习的区别
数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习和数据挖掘》可以帮助大家理解。 数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。简言之,对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能转载 2014-09-25 13:41:32 · 2106 阅读 · 0 评论 -
分类与聚类算法基础了解
分类与聚类,监督学习与无监督学习 在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是聚类,以及都包含哪些具体算法或问题。Classification (分类),对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种转载 2014-09-16 13:39:54 · 2139 阅读 · 0 评论 -
决策树基础篇
1.1、什么是决策树 咱们直接切入正题。所谓决策树,顾名思义,是一种树,一种依托于策略抉择而建立起来的树。 机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决转载 2014-09-16 13:58:31 · 3043 阅读 · 0 评论 -
信息增益
特征选择方法之信息增益前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分转载 2014-09-16 15:13:21 · 951 阅读 · 0 评论 -
关联规则挖掘之算法实现
/* 这个程序是数据挖掘中的Apriori算法 Apriori算法的描述 Apriori算法的第一步是简单统计所有含一个元素的项集出现的频率,来决定最大的一维项目集. 在第k步,分两个阶段,首先用一函数sc_candidate(候选),通过第(k-1)步中生成的最大项目集Lk-1来生成侯选项目集Ck. 然后搜索数据库计算侯选项目集Ck的支持度. 为了更快速地计算Ck中项目的支原创 2014-10-17 18:19:57 · 817 阅读 · 0 评论