- 博客(1)
- 收藏
- 关注
转载 [039]文本去重、过滤——文本指纹
1. 文本指纹介绍互联网网页存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对每个文本构造一个指
2016-08-19 10:51:27 3068 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人