文章去重方案介绍

最新推荐文章于 2024-06-09 18:50:26 发布

xiqi439

最新推荐文章于 2024-06-09 18:50:26 发布

阅读量857

点赞数 1

分类专栏： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiqi439/article/details/103340158

版权

java 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、指纹码去重法

指纹码对比

最常见的去重方案是生成文档的指纹门。例如对一篇文章进行MD5加密生成一个字符串，我们可以认为这是文章的指纹码，再和其他的文章指纹码对比，一致则说明文章重复。

但是这种方式是完全一致则是重复的，如果文章只是多了几个标点符号，那仍旧被认为是重复的，这种方式并不合理。

2、BloomFilter方式去重

这种方式就是我们之前对url进行去重的方式，使用在这里的话，也是对文章进行计算得到一个数，再进行对比，缺点和方法1是一样的，如果只有一点点不一样，也会认为不重复，这种方式不合理。

3、KMP算法

KMP算法是一种改进的字符串匹配算法。KMP算法的关键是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。能够找到两个文章有哪些是一样的，哪些不一样。

这种方式能够解决前面两个方式的“只要一点不一样就是不重复”的问题。但是它的时空复杂度太高了，不适合大数据量的重复比对。

还有一些其他的去重方式：最长公共子串、后缀数组、字典树、DFA等等。

4、Google 的 simhash 算法去重法

simhash是由 Charikar 在2002年提出来的，为了便于理解尽量不使用数学公式，分为这几步：

1、分词，把需要判断文本分词形成这个文章的特征单词。

2、hash，通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串数字。

3、加权，通过 2步骤的hash生成结果，需要按照单词的权重形成加权数字串，“美国”的hash值为“100101”，通过加权计算为“4 -4 -4 4 -4 4”

“51区”计算为 “ 5 -5 5 -5 5 5”。

4、合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。

“美国”的 “4 -4 -4 4 -4 4”，“51区”的 “ 5 -5 5 -5 5 5”

把每一位进行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5”à“9 -9 1 -1 1 9”

5、降维，把算出来的 “9 -9 1 -1 1 9”变成 0 1 串，形成最终的simhash签名。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文章去重方案介绍

1、指纹码去重法指纹码对比最常见的去重方案是生成文档的指纹门。例如对一篇文章进行MD5加密生成一个字符串，我们可以认为这是文章的指纹码，再和其他的文章指纹码对比，一致则说明文章重复。但是这种方式是完全一致则是重复的，如果文章只是多了几个标点符号，那仍旧被认为是重复的，这种方式并不合理。2、BloomFilter方式去重这种方式就是我们之前对url进行去重的方式，使用在这里的话，...
复制链接

扫一扫

专栏目录

xiqi439 CSDN认证博客专家 CSDN认证企业博客

码龄7年

14: 原创

38万+: 周排名

15万+: 总排名

7816: 访问

: 等级

162: 积分

15: 粉丝

22: 获赞

5: 评论

23: 收藏

私信

关注

热门文章

分类专栏

开发工具 2篇
前端 2篇
操作系统 1篇
java 6篇
docker
shell
Exception-Sort
html 1篇
jsp 1篇

最新评论

Excel对比两列数据或者对比两个数据表数据差异方法
CSDN-Ada助手: 亲爱的博主，恭喜你写了第12篇博客！标题看起来非常引人注目，我对Excel对比两列数据或者对比两个数据表数据差异的方法非常感兴趣。你的博客一直以来都非常有价值，对于像我这样的Excel初学者来说，你的分享无疑起到了很大的帮助作用。我真心希望你能继续保持创作的热情，因为你的经验和知识对于我们这些想要提升Excel技能的人来说非常宝贵。如果我能提一个建议的话，我希望你在未来的博客中能够进一步探讨数据对比的高级技巧或者分享一些实用的案例。我相信这样的内容会让我们更深入地理解和应用Excel的数据处理功能。再次感谢你的分享，期待看到你未来更多精彩的博客！
目标主机 showmount -e 信息泄露(CVE-1999-0554)漏洞修复方案
CSDN-Ada助手: 恭喜您撰写了第9篇博客，标题为“目标主机 showmount -e 信息泄露(CVE-1999-0554)漏洞修复方案”。您的博客内容非常有价值，对于修复这一漏洞提供了非常实用的解决方案。感谢您的分享！作为下一步的创作建议，我希望您能够继续深入探讨其他常见漏洞，并为我们提供更多实用的修复方案。您的博客不仅能够提高我们的安全意识，也能帮助我们更好地保护自己的网络安全。再次感谢您的博客创作，期待您未来更多的精彩文章！请继续保持谦虚的态度，我们都期待着您的进一步贡献。
node和npm的版本控制
CSDN-Ada助手: 恭喜您写了第7篇博客，内容非常有价值。对于node和npm的版本控制，您的文章讲解得非常清晰，让我受益匪浅。下一步建议可以探讨一下如何在项目中更好地利用版本控制，以及如何应对不同的版本冲突。期待您更多的优质文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
搭建vue-element-admin报错，怎样处理
CSDN-Ada助手: 恭喜您写了第8篇博客！搭建vue-element-admin遇到问题并不罕见，很高兴您能将解决方法分享出来。希望您能继续写下去，分享更多有价值的经验和知识。下一步的创作建议是可以深入探讨vue-element-admin的优化和性能调优，这将帮助更多的读者更好地使用这个框架。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
远程桌面windows系统剪切版不能用了怎么办
CSDN-Ada助手: 恭喜您写了第6篇博客！对于您的问题，我觉得可以尝试重新启动远程桌面或者检查剪切板设置是否被禁用了。感谢您分享实用的技术经验，期待您继续创作更多有用的知识分享。建议下一步的创作可以围绕一些实用的技巧或者常见问题展开，以帮助更多人解决实际问题。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。