I-Match算法

最近在看怎么比较文本相似的一些资料,看到I-Match算法,思想比较简单,但是看到的一些文档介绍都看的有点迷糊,按照自己的想法整理一下。

I-Match算法是2002年提出的,它有一个基本的假设——在文档中高频词和低频词不太会邮箱文章语义,即特别高频和特别低频词无法反映文档的真是内容,就像比赛中去掉最高分和最低分。

算法框架:

1.获取文档

2.移除格式化的标签,将文档分解成token流

3.通过阈值(IDF)过滤掉一些特征,即文章中特别高频和特别低频的词汇

4.插入tokens到顺序排列的排序树中

5.计算token的Hash值

6.认为Hash值相同的文档是相似的


在网上看到都以这个例子举例

举例:这里有两段网页文字:
1.中国足球队在米卢的率领下首

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值