csdn博客推荐系统实战-2文本相似度-simhash和海明距离

最新推荐文章于 2022-04-21 20:57:19 发布

王睿编程20年

最新推荐文章于 2022-04-21 20:57:19 发布

阅读量3.1k

点赞数

分类专栏：推荐系统实战文章标签： simhash 海明距离 TF-IDF 推荐系统 csdn

本文链接：https://blog.csdn.net/worryabout/article/details/79792861

版权

推荐系统实战专栏收录该内容

16 篇文章

订阅专栏

本文介绍SimHash算法原理及其实现，该算法通过降维处理，将高维特征向量转换为固定长度的指纹，以此来快速计算文本相似度，应用于文本去重等场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上一篇我讲到了TF-IDF（term frequency–inverse document frequency）模型，再配合余弦定理来计算2篇文本的相似度，但是这样也有一个缺点，如果文本很长，那文本的特征向量会特别的多，比如5W个词，20W个词，那用余弦来计算的话，计算量就会很大，如果语料库文本量又很大，500W，5000W，那两两比较的话，计算量是一个天文数字，时间成本太高了，这种方法肯定不行。

为什么要进行相似度的计算？

既然上面的方法在大数据量的时候不行，那就回到问题的原点，为什么要计算相似度？是为后面能更好的分类(聚类也是分类)，推荐，预测，总之是为下一步操作准备。我以推荐为例，推荐系统是把合适的内容推荐给用户，依据是用户的历史行为，人的兴趣点是有限的，youtube几十亿的视频，一般用户看几百个就不错了，重度用户看几千上万个，看几十万个视频的用户，太少太少了，可以忽略了。例如：我看了‘记录片《枪》第一集冲锋枪’，相关推荐如下图，

不会给我推荐，日文的记录片，韩剧，韩综，中国偶像剧，即使我历史行为中有这些内容，但是如果不达到一定的比例都不会在这页给我推荐。

现在有个问题要面对，如何给用户推荐与现在看的文档不同，但相关的内容。与现在的文档不同，就是计算2个文档是否重复，这个就是接下来要说的内容。

与现在的文档相关的内容，刚才说到了，youtube有几十亿的视频，与某一视频相关的内容，会有很多，但肯定不是几十亿，而是几十几百，和几十亿总量一比，千万分之一啊，我们只计算相关的几十几百个内容即可，大部分都是无关的，或者是相关性很差的内容，那怎么发现这些相关的内容呢，后面我文章我会介绍。

文档去复

就是今天的主要内容。找出内容重复的文档，接下来是聚合，还是去除看产品而定。刚才说了，用TF-IDF和余弦来处理，时间成本太高，那怎么办？降维是一种通用的作法，把20W维降到20维，计算量肯定小很多啊。那该怎么降维呢？用simhash

simhash

simhash的主要思想是降维，将高维的特征向量映射成一个f-bit的指纹(fingerprint)，又因为它的局部敏感性(局部敏感性指的是非常相似的文本，即便只差一个字符，md5后的序列也可能非常不同，但是simHash之后的序列可能只是某几位不同)，通过比较两篇文章的f-bit指纹的海明来确定文章是否重复或者高度近似。

simhash是google用来处理海量文本去重的算法,简单实用。

将文章simhash得到一串64位的二进制，一般取海明距离为3作为阈值，即在64位二进制中，只有三位不同，我们就认为两个文档是相似的。当然了，这里可以根据自己的需求来设置阈值。

算法实现

1.将文档分词，取一个文章的TF-IDF模型中TF权重最高的前20个词（feature）和权重（weight）。即一篇文档得到一个长度为20的（feature：weight）的集合。
2.对其中的词（feature），进行普通的哈希之后得到一个64为的二进制，得到长度为20的（hash : weight）的集合。
3.根据（2）中得到一串二进制数（hash）中相应位置是1是0，对相应位置取正值weight和负值weight。例如一个词进过（2）得到（010111：5）进过步骤（3）之后可以得到列表[-5,5,-5,5,5,5]，即对一个文档，我们可以得到20个长度为64的列表[weight，-weight...weight]。
4.对（3）中20个列表进行列向累加得到一个列表。如[-5,5,-5,5,5,5]、[-3,-3,-3,3,-3,3]、[1,-1,-1,1,1,1]进行列向累加得到[-7，1，-9，9，3，9]，这样，我们对一个文档得到，一个长度为64的列表。
5.对（4）中得到的列表中每个值进行判断，当为负值的时候去0，正值取1。例如，[-7，1，-9，9，3，9]得到010111，这样，我们就得到一个文档的simhash值了。
6.计算相似性。连个simhash取异或，看其中1的个数是否超过3。超过3则判定为不相似，小于等于3则判定为相似。