文章目录
https://www.cnblogs.com/limingqi/p/14159466.html 一文中介绍了使用 n-gram 去重,我的目的没有这么复杂,主要是检测重复即可。
本想用 jieba 分词后,counter 出词语出现的次数,但确实没有n-gram,当然 ngram 也相对更耗时。
还是写出以下代码:
def check(sentence, max_ngram_length=4):
final_merge_sent = sentence
max_ngram_length = min(max_ngram_length,