相似项发现（一）

最新推荐文章于 2022-05-10 16:36:25 发布

Diehard_Yin

最新推荐文章于 2022-05-10 16:36:25 发布

阅读量2.1k

点赞数 1

分类专栏：数据挖掘文章标签：相似项发现最小哈希最小哈希矩阵 minhashing

本文链接：https://blog.csdn.net/yinlili2010/article/details/40296035

版权

数据挖掘专栏收录该内容

15 篇文章 0 订阅

订阅专栏

综述

一个基本的数据挖掘问题是从数据中获得“相似项”。应用在检测抄袭网页，抄袭文档（也可以通过关联分析算法来检测），检查是否是镜像网页。

首先，需要将相似度问题表述为寻找具有相对较大交集的集合问题（Jaccard）。扩展可以需要采用其他的距离测度：来具体定量相似项的相似度。包括欧式距离、Jaccard距离、余弦距离、编辑距离、海明距离。

如果是文本的相似问题，我们转换为集合问题并且通过著名的“shinging”技术来解决。然后通过最小哈希(minhashing)来对大集合进行压缩，然后基于压缩后的结果推导原始集合相似度。当相似度要求很高时，可以使用面向高相似度的方法：

基于长度的过滤

前缀索引

使用位置和长度信息的索引

通过局部敏感哈希（Locality Sensitive Hashing LSH)技术来把搜索范围集中在那些可能的相似项对上面。因为即使每项之间的相似度计算非常简单，但是由于项对数目过多，无法对所有的项对检测相似度。

衡量文本相似度的几种手段：

（1）最长公共子串（基于词条空间）

（2）最长公共子序列（基于权值空间、词条空间）

（3）最少编辑距离法（基于词条空间）

（4）汉明距离（基于权值空间）

（5）余弦值（基于权值空间）

一、Jaccard相似度

集合S和T的相似度 SIM(S,T) = |S∩T|/|S∪T/,这是字面上的相似，意义相似度计算也是个非常有趣的问题，但是需要通过其他技术来解决。

应用：计算文档相似度，包括抄袭文档、镜像页面、同源新闻稿。

另一个非常重要的应用是协同过滤（collaborative filtering），在协同过滤系统中，系统会向用户推荐相似兴趣用户所喜欢的项，应用在推荐系统中。但是协同过滤除了相似顾客或商品的发现之外，还需要一些其他的工具。例如，两个喜欢科幻小说的Amazon顾客可能各自从网站购买了很多的科幻小说，但是他们之间的交集很小。然而，通过将相似度发现和聚类技术融合，就可以发现科幻小说之间相互类似而将他们归为一类。这样，通过询问他们是否在多个相同类下购买了商品，我们就能得到一个更强的顾客相似度概念。

二、文档的Shining

2.1 K-shining

一篇文档为一个字符串，k-shining定义为其中任意长度为k的字串。

例如文档D为abcdabd,当k=2，所有的2-shining组成的集合为{ab,bc,cd,da~~,ab~~,bd}，设字符为n, 则集合最多有n+1-k个。由于重复的字串在集合中只算1次。扩展包括基于包的表示，对空白串的处理。

2.2k的选择

k的选择依赖于文档的典型长度以及典型的字符表大小。k应该选择的足够大，以保证任意给定的shining出现在任意文档中的概率较低。

邮件的的k=5.因为所有的5-shining个数为27^5= 14348907。而典型的邮件长度会远远低于1400万字。由于在邮件中有的字符船舷的概率明显会比其他的高。所以把邮件想象为只由20个不同的字符构成。

对于研究论文的大文档来说，选择k=9则比较安全。

2.3 对shining进行哈希

将每个k-shining通过某个哈希函数映射为桶编号。如9-shining映射为0-2^32-1之间的桶编号。将数据从9字节压缩到4个字节。使用的空间与4-shining一样，但是却具有更高的数据区分能力。但是20^9次方比2^32大很多。

2.4 基于词的shining

对于新闻内容及散文包含大量的停用词，平时我们很可能会忽略这些词，因为他们没有任何作用。如"and","to","you"等。但是对于新闻报道的近似重复检测，我们将shining定义为一个停用词加上后续的两个词（不再对词进行区分）。这样如过两个包含新闻的网页，如果得到高jaccard相似度，那么可以推断他们的新闻内容相同即使他的周边材料会不同。

即使采用哈希表示，每9个字节的k-shinging数目在一篇有n字符的文档中会有m = n+1-9 ≈ n个k-shining字符串，如果采用哈希函数，仍然需要大概4*n的空间，是该文档所需空间的4倍。这一节的目标是对集合进行压缩，将上述的大集合替换成规模小很多的“签名”(signature)表示。尽管通过签名无法得到原始shining集合之间的Jaccard相似度的精确值，但是估计结果与真实结果相差不大。签名集合越大，估计的精度也越高。