「Python与算法社区」 第 306 篇原创
“
N-Gram 模型介绍
”
本文将以实践的方式讨论N-Gram原理与其应用,我对N-Gram的接触来源与一个文本分类的实验,发现在原有的分词基础上引入N-Gram会提升分类准确率,因此在此讨论什么是N-Gram?它有什么作用?
N-Gram常用的有三种:unigram,bigram,trigram 分别对应一元,二元,三元。
以“我想去成都吃火锅”为例,对其进行分词处理,得到下面的数组:["我",“想”,“去”,“成”,“都”,“吃”,“火”,“锅”]
这就是uningram, 分词的时候对应一个滑动窗口,窗口大小为1,所以每次只取一个值,同理假设使用bigram就会得到
[“我想”,“想去”,“去成”,“成都”ÿ