文本挖掘
文章平均质量分 69
zhjw1006
这个作者很懒,什么都没留下…
展开
-
I-Match算法
最近在看怎么比较文本相似的一些资料,看到I-Match算法,思想比较简单,但是看到的一些文档介绍都看的有点迷糊,按照自己的想法整理一下。I-Match算法是2002年提出的,它有一个基本的假设——在文档中高频词和低频词不太会邮箱文章语义,即特别高频和特别低频词无法反映文档的真是内容,就像比赛中去掉最高分和最低分。算法框架:1.获取文档2.移除格式化的标签,将文档分解成token流原创 2012-11-09 14:14:49 · 2146 阅读 · 0 评论 -
网页去重-比较文本的相似度-Near duplication detection
网页去重-比较文本的相似度-Near duplication detection near duplicate detection 的任务是检测重复的内容,这项工作在搜索引擎,版权保护,信息展示等方面都有很好的应用。在搜索引擎上,主要是去掉重复的页面,图片,文件,文档等等。下面就指讨论网页的deduplication。 问题是什么? 据统计,网页上的大部分相同的页面占2转载 2012-11-09 13:52:38 · 521 阅读 · 0 评论 -
SHINGLE
shingle是指文档中一组邻近的 有序词。基于shingle的算法要求从文档中选取一系列 shingle,然后把shingle映射到Hash表中,一个 shingle对应一个Hash值,最后统计Hash表中相同的shingle比率,作为判定文本相似度依据,比率越高,相 似度越高。 下面就用维基百科的一个浅显例子来讲解shingle算法的原理,这个比较权威。 比如,一个转载 2012-11-09 13:55:41 · 954 阅读 · 0 评论 -
网页去重-算法篇
网页去重-算法篇 前一篇(网页去重-比较文本的相似度-Near duplication detection )提到了5个解决网页去重的算法,这里我想讨论下这些算法1. I-Match 2. Shingliing3. SimHashing( locality sensitive hash) 4. Random Projection5. SpotSig 6. combinedI-Ma转载 2012-11-09 13:54:11 · 436 阅读 · 0 评论