数据挖掘笔记
文章平均质量分 78
nankaizhl
这个作者很懒,什么都没留下…
展开
-
斯坦福数据挖掘不同版本课件讲局部敏感哈希中MinHash的理解
今天学习局部敏感哈希,看斯坦福的课件,他在讲将7维Input matrix (Shingles x Documents)用MinHash处理成3维Signature matrix 时那一步里面结果怎么也对不上,就是这张熟悉的图:描述是这样的: 我解读的应该是置换后一列中第一个是1的那行的行号,这样理解没什么问题吧,可是右边那个3*3的结果的表里咋没几个...原创 2015-11-04 21:44:32 · 1622 阅读 · 0 评论 -
数据挖掘笔记:Review_1
学习斯坦福CS246提供的课程课件做的期末总结相对于机器学习、人工智能和数据库统计,数据挖掘更强调: 1. 特征与实例数量上的可扩展性 2. 算法与架构 3. 大规模数据的自动化处理如何综合运用数据挖掘诸知识点: 根据不同的数据类型 根据不同的计算模型原创 2016-02-25 19:57:59 · 1154 阅读 · 1 评论 -
数据挖掘笔记:Review_2
链接分析简单PageRank,节点投票,只考虑入度对自己的贡献为应付爬虫陷阱和终节点,引入一个随机跳转的概率β大规模PageRank的计算方法,存储上压缩,分批处理,计算加速:1. M矩阵的稀疏特点,可以只存储非零元素2. 将M矩阵存放在磁盘中,运算时分批加载矩阵中的向量3. 当连r[old]和r[new]这种状态向量也无法存储在内存时,就要把r[old]和r[原创 2016-02-25 20:47:44 · 1011 阅读 · 1 评论