I-Match算法

最新推荐文章于 2022-02-14 01:36:02 发布

zhjw1006

最新推荐文章于 2022-02-14 01:36:02 发布

阅读量2.1k

点赞数 1

分类专栏：文本挖掘文章标签： I-Match 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhjw1006/article/details/8166201

版权

I-Match算法用于文本相似度比较，通过去除高频和低频词，保留中频词进行文档匹配。该算法依赖于IDF阈值来过滤词汇，并使用排序树和Hash值判断文档相似性。其准确性取决于统计资料的质量。

摘要由CSDN通过智能技术生成

最近在看怎么比较文本相似的一些资料，看到I-Match算法，思想比较简单，但是看到的一些文档介绍都看的有点迷糊，按照自己的想法整理一下。

I-Match算法是2002年提出的，它有一个基本的假设——在文档中高频词和低频词不太会邮箱文章语义，即特别高频和特别低频词无法反映文档的真是内容，就像比赛中去掉最高分和最低分。

算法框架：

1.获取文档

2.移除格式化的标签，将文档分解成token流

3.通过阈值（IDF）过滤掉一些特征，即文章中特别高频和特别低频的词汇

4.插入tokens到顺序排列的排序树中

5.计算token的Hash值

6.认为Hash值相同的文档是相似的

在网上看到都以这个例子举例

举例：这里有两段网页文字：
1.中国足球队在米卢的率领下首

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。