Google对simhash的用法论文读书笔记

最新推荐文章于 2022-11-10 14:48:13 发布

ybdesire

最新推荐文章于 2022-11-10 14:48:13 发布

阅读量513

点赞数

分类专栏： PaperRead 文章标签：哈希算法算法

本文链接：https://blog.csdn.net/ybdesire/article/details/121297919

版权

1 篇文章 0 订阅

订阅专栏

1. 引入

最近需要对xml计算hash值，做分类与相似性搜索，查资料时正好看了google在2007年发表的“Detecting Near-Duplicates for Web Crawling”，有一些收获，记录一下。

优点：多个特征不需要排序就能直接计算hash值，提高计算效率

这些思路，都是2007年的当时的思路，并非目前的最优解（直接用相似性搜索引擎）。

整个求simhash的流程，是先从文档中，提取出features。然后对各个feature求simhash，再用3中的方法把多个hash值融合为一个。

那么，能从文档中，提取出哪些feature呢？

原文中用的是shingle这个词来表示特征，从参考1中，得到shingle的定义如下

A contiguous subsequence contained in D is called a shingle
就是D中的连续子序列，也就是N-Gram，比如 4-gram中的一个shingle例子：(a,rose,is,a)

比如IDF向量，原文中也提到了很多类似IDF的其他向量。

比如从哪几个page中的url能连接到该page

Anchor Text就是HTML的a元素标记的可点击的文本。参考2中有详细讲解。

https://www.cs.princeton.edu/courses/archive/spring13/cos598C/broder97resemblance.pdf
Anchor Text. https://moz.com/learn/seo/anchor-text

关注

专栏目录