数据挖掘
文章平均质量分 64
zhouhong1026
这个作者很懒,什么都没留下…
展开
-
海量数据的二度人脉挖掘算法(Hadoop 实现)
原创博客,转载请注明:http://my.oschina.net/BreathL/blog/75112 最近做了一个项目,要求找出二度人脉的一些关系,就好似新浪微博的“你可能感兴趣的人” 中,间接关注推荐;简单描述:即你关注的人中有N个人同时都关注了 XXX 。 在程序的实现上,其实我们要找的是:若 User1 follow了10个人 {User3,User4转载 2012-09-02 14:57:14 · 1228 阅读 · 0 评论 -
挖掘关联规则之Apriori算法详解
1. 挖掘关联规则1.1 什么是关联规则一言蔽之,关联规则是形如X→Y的蕴涵式,表示通过X可以推导“得到”Y,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)1.2 如何量化关联规则关联规则挖掘的一个典型例子便是购物车分析。通过关联规则挖掘能够发现顾客放入转载 2012-09-09 23:37:35 · 12215 阅读 · 1 评论 -
基于FP-tree的关联规则挖掘FP-growth算法基本思想
算法分析: 转载地址:http://hi.baidu.com/shirdrn/blog/category/Data%20Minning 在挖掘关联规则的过程中,无可避免要处理海量的数据,也就是事务数据库如此之大,如果采用Apriori算法来挖掘,每次生成频繁k-项集的时候,可能都需要扫描事务数据库一遍,这是非常耗时的操作。那么,可以想尽办法来减少扫描事务数据库的次数,来改进挖掘频繁关联转载 2012-09-09 23:39:02 · 3243 阅读 · 0 评论 -
Apriori算法实现(java)
package AprioriTest;import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;转载 2012-09-09 23:34:51 · 10252 阅读 · 4 评论 -
FPGrowth算法实现
算法分析:http://ikeycn.iteye.com/blog/700740 算法实现: /** * FPGrowth算法的主要思想: * 1. 构造频繁1项集:遍历初始数据集构造频繁1项集,并作为项头表,建立将指向fpTree节点对应元素的引用 * 2. 构造FPTree:再次遍历初始数据集,对于每一条事务中的元素,根据频繁1项集中元素的顺序排序, * 由此建立FPT转载 2012-09-09 23:42:31 · 4165 阅读 · 1 评论