I-Match算法

I-Match算法用于文本相似度比较,通过去除高频和低频词,保留中频词进行文档匹配。该算法依赖于IDF阈值来过滤词汇,并使用排序树和Hash值判断文档相似性。其准确性取决于统计资料的质量。
摘要由CSDN通过智能技术生成

最近在看怎么比较文本相似的一些资料,看到I-Match算法,思想比较简单,但是看到的一些文档介绍都看的有点迷糊,按照自己的想法整理一下。

I-Match算法是2002年提出的,它有一个基本的假设——在文档中高频词和低频词不太会邮箱文章语义,即特别高频和特别低频词无法反映文档的真是内容,就像比赛中去掉最高分和最低分。

算法框架:

1.获取文档

2.移除格式化的标签,将文档分解成token流

3.通过阈值(IDF)过滤掉一些特征,即文章中特别高频和特别低频的词汇

4.插入tokens到顺序排列的排序树中

5.计算token的Hash值

6.认为Hash值相同的文档是相似的


在网上看到都以这个例子举例

举例:这里有两段网页文字:
1.中国足球队在米卢的率领下首

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值