缘起
之前在项目中需要对从微博获取的数据进行热门新话题发现,由于微博传播的特性,新的热门的话题,人们会对它进行广泛的讨论,而且讨论的内容会比较类似,所以想到了把相似内容进行合并,把讨论量大的内容作为热门新话题。经过一翻查询,选定了LSH作为相似内容检测的方法
LSH
LSH(Locality Sensitive Hashing),局部敏感哈希,它是一种针对海量高维数据的快速最近邻查找算法。
为了解决在海量高维数据中查找最近邻的问题,人们设计了一种特殊的hash函数,使得2个相似度很高的数据以较高的概率映射成同一个hash值,而令2个相似度很低的数据以极低的概率映射成同一个hash值。我们把这样的函数,叫做LSH(局部敏感哈希)
LSH的效果是,可以把高维向量hash成一串 n-bit 的数字,当两个向量cosin夹角越小的时候(即他们越相似),那么他们hash成的这两串数字就越相近
降维
要解决高维数据计算的问题,要进行降维,LSH中常用的降维方法是minhash和simhash
Minhash和Simhash
minhash
在数据挖掘中,一个最基本的问题就是比较两个集合的相似度,通常通过,统计这两个集合中相同元素的个数,来表示集合的相似度,这一步也可以看成特征向量间相似度的计算(欧式距离,余弦相似度),当两个集合里元素数量异常大(特征空间维度很大),同时又有很多个集合需要判断两两间的相似度时,传统方法会变得十分耗时,minHash可以用来解决该问题
为了计算minhash值,首先对特征矩阵进行打乱。然后某一列的minhash值就等于打乱后这一列第一个值为1的行所在的行号
Jaccard相似度