language model ,you should know...

一碗白开水一

于 2021-01-21 14:10:30 发布

阅读量96

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43859829/article/details/112939024

版权

NLP 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

在这里插入图片描述
1、N-Gram
在深度学习之前最常用的技术是N-gram语言模型

问题：N-gram的问题是训练资料仍然不足，会限制精度，即某种N-gram没有出现并不能代表它们出现几率是0，language model smoothing的技术可以用来解决这一问题
在这里插入图片描述
解决方法：
方法来源于推荐系统中的矩阵分解，通过最小化目标函数来估计单词向量，如果两个单词向量越接近，则这两个单词后面接某个单词的概率应相似，通过h向量和v向量相乘来计算连续语言模型中的表格中的值。
在这里插入图片描述连续语言模型和深度学习的关系，即相当于只有一层的神经网络模型：
因此可以拓展到多层神经网络模型来学习在若干序列后产生某个token的概率

在这里插入图片描述
上面的语言模型的问题在于不好利用语境信息，即太多的输入会产生大量的参数，因此有了基于RNN的语言模型，这样就可以用非常长的n-gram技术

在这里插入图片描述

一碗白开水一

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
language model ,you should know...

1、N-Gram在深度学习之前最常用的技术是N-gram语言模型问题：N-gram的问题是训练资料仍然不足，会限制精度，即某种N-gram没有出现并不能代表它们出现几率是0，language model smoothing的技术可以用来解决这一问题解决方法：方法来源于推荐系统中的矩阵分解，通过最小化目标函数来估计单词向量，如果两个单词向量越接近，则这两个单词后面接某个单词的概率应相似，通过h向量和v向量相乘来计算连续语言模型中的表格中的值。连续语言模型和深度学习的关系，即相当于只有一层的神经.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。