Language Model

最新推荐文章于 2024-08-13 09:18:02 发布

带刺的厚崽

最新推荐文章于 2024-08-13 09:18:02 发布

阅读量211

点赞数

文章标签：机器学习 language model nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45360119/article/details/123317793

版权

Language Model

Language model估计不同语言的概率：符号、标记、标记序列

具体来说，我们希望根据我们的语言模型，"更有可能"出现在语言中的句子具有更大的概率。

可以根据链式法则进行计算句子的概率

$P(y_1,y_2,…,y_n)=P(y_1)⋅P(y_2|y_1)⋅P(y_3|y_1,y_2)⋅⋅P(y_n|y_1,…,y_{n−1})$

在给定先前的上下文中预测下一个词的概率分布

N-gram模型

从左到右，每一个词只与前面 $n - 1$ 个词相关

马尔可夫假设

一个单词的概率仅取决于固定数量的前一个单词。

一般采用二元或者三元

为了避免某一个情况没有出现过，分母为0的情况

采用线性插值

λ0，λ1，…，λn−1使得 $\limits_{i}λ_i=1$ .则更新的概率为：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ibuwgRWb-1646573044024)(https://lena-voita.github.io/resources/lectures/lang_models/ngram/interpolation-min.png)]

避免分子中输入为0

采用拉普拉斯平滑，所有的计数项前面加上 $\delta$

$\ on \ a) = \frac{\delta + N(cat \ on \ a \ mat)}{\delta |V|+N(cat \ on \ a)}$

无法使用长上下文是n-gram模型的主要缺点。

神经网络

处理上下文。对上下文进行编码，可以预测下一个词的概率分布
生成下一个词的概率分布

模型解释

将以前（上下文）单词的单词嵌入到网络中;
从网络获取上下文的矢量表示;
从此向量表示中，预测下一个词的概率分布。

文本的矢量表示具有一定的维度d，但最终，我们需要一个大小的向量|V|（概率|V|词/类）。要获取|V|-大小矢量从d-大小，我们可以使用线性层。一旦我们有了|V|-大小向量，剩下的就是应用 softmax 运算将原始数字转换为类概率。

运用交叉熵作为损失

rnn

简单rnn：单层

多层rnn：将状态从一个rnn馈送到下一个rnn

生成策略

以不同的方式修改模型预测的分布，以生成具有某些属性的文本。虽然特定的所需文本属性可能取决于您关心的任务（一如既往），但通常您希望生成的文本是：

连贯 - 生成的文本必须有意义;
多样化 - 模型必须能够产生非常不同的样品。

top-K抽样

只选择前k大的令牌进行采样

覆盖总概率质量的很小一部分（在平面分布中）;
包含非常不可能的token（在峰值分布中）。
不同的样品。

top-K抽样

只选择前k大的令牌进行采样

覆盖总概率质量的很小一部分（在平面分布中）;
包含非常不可能的token（在峰值分布中）。

带刺的厚崽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Language Model

Language ModelLanguage model估计不同语言的概率：符号、标记、标记序列具体来说，我们希望根据我们的语言模型，"更有可能"出现在语言中的句子具有更大的概率。可以根据链式法则进行计算句子的概率P(y1,y2,…,yn)=P(y1)⋅P(y2∣y1)⋅P(y3∣y1,y2)⋅⋅P(yn∣y1,…,yn−1)P(y_1,y_2,…,y_n)=P(y_1)⋅P(y_2|y_1)⋅P(y_3|y_1,y_2)⋅⋅P(y_n|y_1,…,y_{n−1})P(y1,y2,…,yn)
复制链接

扫一扫

带刺的厚崽 CSDN认证博客专家 CSDN认证企业博客

码龄5年

117: 原创

5万+: 周排名

166万+: 总排名

11万+: 访问

: 等级

1261: 积分

660: 粉丝

61: 获赞

9: 评论

391: 收藏

私信

关注

热门文章

最新评论

命名实体识别主要方法
CSDN-Ada助手: 非常感谢CSDN博主的分享，命名实体识别是很重要的自然语言处理技术，这篇博客讲解的主要方法非常实用。我觉得下一篇可以继续深入探讨其中的算法细节，例如基于深度学习的命名实体识别方法，或者如何应用命名实体识别技术解决具体业务问题等方面，这样的技术文章对其他用户也会非常有帮助。相信会有更多的读者期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
1.20 study单变量线性回归
带刺的厚崽: https://www.bilibili.com/video/BV164411b7dx?spm_id_from=333.999.0.0
1.20 study单变量线性回归
伊滴小朋友: 参考视频求分享~
CCPC11.14广州正赛
神作人生: c题minl的含义是什么啊
CCPC11.14广州正赛
带刺的厚崽: 就是满足那三个数不报long long 三个数的大小关系满足即可详细的可以看看代码

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。