最近在看怎么比较文本相似的一些资料,看到I-Match算法,思想比较简单,但是看到的一些文档介绍都看的有点迷糊,按照自己的想法整理一下。
I-Match算法是2002年提出的,它有一个基本的假设——在文档中高频词和低频词不太会邮箱文章语义,即特别高频和特别低频词无法反映文档的真是内容,就像比赛中去掉最高分和最低分。
算法框架:
1.获取文档
2.移除格式化的标签,将文档分解成token流
3.通过阈值(IDF)过滤掉一些特征,即文章中特别高频和特别低频的词汇
4.插入tokens到顺序排列的排序树中
5.计算token的Hash值
6.认为Hash值相同的文档是相似的
在网上看到都以这个例子举例
举例:这里有两段网页文字:
1.中国足球队在米卢的率领下首