- 博客(1)
- 收藏
- 关注
原创 python使用simhash实现文本相似性对比(全代码展示)
导入2篇文章,用结巴分词选出权重Top10的词语,转化成哈希编码,对比2篇文章的汉明距离,阈值设置为18,汉明距离小于等于18的为文本相似,反之不相似。另外,有没有大神帮忙回复下怎么写一个导入2篇文章的接口,谢谢。import reimport codecsimport jiebaimport jieba.analyseimport numpy as npfr1 = 'C:/Us...
2018-12-04 15:24:10 10887 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人