N-gram note

最新推荐文章于 2019-10-29 19:15:45 发布

weixin_44675209

最新推荐文章于 2019-10-29 19:15:45 发布

阅读量175

点赞数

分类专栏： note

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44675209/article/details/89331882

版权

note 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

N-gram
N-gram 是指我们在预测一个词时，这个词和前（N-1）个词的依赖关系，常用的为bi-gram和tri-gram，分别考虑当前词和前一个，前两个词的关系。

有点类似于词语接龙，例如I后面常跟am，金钟罩后面常跟着铁布衫。

实际使用中我们遍历文本，找到所有词语并编码成词向量，以bi-gram为例，一个句子的概率由P = P(W1)P(W2|W1)P(W3|W2)…构成。

词语之间构成稀疏矩阵
词语矩阵
由条件概率和大数定理得 $P(W_k|W_{k-1}) = \frac {C(W_kW_{k-1})}{C(W_{k-1})}$
假设一个词表的规模为N=20000（汉语的词汇量）

所以实际当中常用的为bigram和trigram，又由于n-gram中大部分词语的概率接近0，导致只能检索部分句子，因此还需要采取一些平滑措施（data smoothing）使：
1、n-gram概率之和为1；
2、n-gram概率不为0。

weixin_44675209

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。