文献阅读记录（二十一）2023-08-08

憨化龙猫

于 2023-08-08 21:35:37 发布

阅读量34

点赞数

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangmoua/article/details/132157025

版权

一、估计语言模型的概率。给定一个语言模型，如何去评估一个句子。通过马尔可夫的假设，将条件概率简化之后就可以计算出这个概率，前提就是已经训练好这样一个模型。

如何训练语言模型，其实就是做一个统计分析，看一个词，一句话在文本中出现了几次，在这个单词出现后紧跟着又出现了什么样的单词，做类似的统计就相当于创建了语言模型。

Unigram模型：p(w1,w2,w3,...,wn)=p(w1)p(w2)...p(wn)。每个单词都是一个独立的个体。

判断每个单词的概率就是在于语料库中查看每个单词出现的频率是多少。例如：一直语料库中有十的五次方个词，其中“我们”出现次数为100次，相对应可以计算出p（“我们”）=1‰Unigram模型下的单词概率都可类似求出。

Bigram模型：p(w1)·p(w2|w1)·p(w3|w2)·...·p(wn|wn-1)，是基于First order markov assumption。

如何计算每个概率，例如：求p（是|明天），在语料库中查看，有哪些词是明天，并查看明天这个词后面一个词是什么，求的就是前面出现明天，后面出现是的概率是多少。假设“明天”共出现5次，其中有两个后面单词为“是”，则p（是|明天）=2/5。N-gram模型和Bigram模型的求法是类似的。

二、评估语言模型：Perplexity。

在理想情况下，将两个语言模型套入选定的特定任务中，通过比较最后的准确率来判断哪一个语言模型更适用。但是，这个方法耗费时间较多，不仅要构建一个语言模型，而且需要把整个系统的流程搭建起来，才可以去评估。

在不依赖任务，也就是不在任务上进行评估，可以节省很多操作而且更具有公平性。就类似于做填空题，例如给定一句话：“今天天气很好，适合出去运动。”，给定语言模型“今天”，来对后面的单词进行一个预测，就相当于是做了填空题。

这个评估方法，有一个评估标准，叫做Perlplexity，是非常重要的一个概念。在文本的评估，特别是无监督的文本的评估，通常采用这个评估方法。

$Perlplexity=2^{-(x)}$ x:average log likelihood，是在验证集或测试集中计算出来的。

一个好的语言模型放入语料库中算出的likelihood是越大越好的，也就是最后计算出来的Perlplexity越小越好。一般情况下，N-gram计算出的Perlplexity会越小，但是选择的N越大，语言模型就更倾向于过拟合现象，越来越复杂。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文献阅读记录（二十一）2023-08-08

如何计算每个概率，例如：求p（是|明天），在语料库中查看，有哪些词是明天，并查看明天这个词后面一个词是什么，求的就是前面出现明天，后面出现是的概率是多少。一般情况下，N-gram计算出的Perlplexity会越小，但是选择的N越大，语言模型就更倾向于过拟合现象，越来越复杂。”，给定语言模型“今天”，来对后面的单词进行一个预测，就相当于是做了填空题。如何训练语言模型，其实就是做一个统计分析，看一个词，一句话在文本中出现了几次，在这个单词出现后紧跟着又出现了什么样的单词，做类似的统计就相当于创建了语言模型。
复制链接

扫一扫

憨化龙猫 CSDN认证博客专家 CSDN认证企业博客

码龄3年

42: 原创

117万+: 周排名

13万+: 总排名

6885: 访问

: 等级

513: 积分

92: 粉丝

93: 获赞

14: 评论

110: 收藏

私信

关注

分类专栏

基本概念 1篇
论文阅读记录 3篇

最新评论

文献阅读记录（一）
CSDN-Ada助手: 恭喜您开始博客创作，标题“文献阅读记录（一）”听起来就很专业和有深度。通过记录文献阅读，您为读者提供了宝贵的参考和学习资源。接下来，我建议您可以进一步探索并分享您的思考和观点，例如从文献中汲取启发，提出自己的见解或者对文献中的观点进行深入分析。期待看到您未来更多精彩的博客文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
文献阅读记录（二）
CSDN-Ada助手: 非常棒的博客！看到你对GPT和RoBERTa的深入了解，真是令人佩服。你对它们的介绍非常清晰，让我更好地理解了它们的原理和应用。希望你能继续写下去，分享更多关于文献阅读的记录。除了GPT和RoBERTa，还有一些和它们相关的扩展知识和技能，希望能对你有所帮助。例如，你可以了解一下Transformer模型，它是GPT和RoBERTa等模型的基础，理解Transformer的原理能够更好地理解这些模型的工作原理。此外，你也可以了解一下BERT的预训练和微调方法，这对于进一步提升模型性能非常重要。总之，期待你在未来的博客中继续分享你的学习和研究成果，也希望你能不断提升自己的知识和技能。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
文献阅读记录（四）2023-07-20
CSDN-Ada助手: 恭喜你的第四篇博客！看到你在标题中提到了“文献阅读记录”，我想你一定是个非常认真的学习者。持续创作并记录文献阅读的过程是一个很好的习惯，能够帮助你巩固所学和分享知识。我希望你能继续保持这样的努力，并在未来的博客中更加深入地分析和总结你所阅读的文献。也许你可以考虑分享一些对于相关领域的见解和思考，这将会使你的博客更加富有深度和独特性。期待你的下一篇作品！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
文献阅读记录（六）2023-07-22
CSDN-Ada助手: 恭喜您发布第六篇博客！您对文献的阅读记录令人钦佩，这种刻苦钻研的精神值得称赞。希望您能继续保持这样的势头，继续分享您的学术心得和经验。如果可能的话，我建议您在未来的博客中可以加入一些个人观点和思考，以丰富读者的阅读体验。再次祝贺您，并期待您的下一篇创作！
文献阅读记录（七）2023-07-23
CSDN-Ada助手: 恭喜您撰写了第7篇博客！从标题来看，您似乎一直保持着对文献的阅读记录，这种坚持令人钦佩。您的博客内容一定充满了有价值的观点和见解。在下一步的创作中，或许您可以考虑与读者分享一些您对这些文献的深入思考和理解，或者将这些学术知识与实际应用相结合，以便让更多人受益。谦虚的言辞只是表达我对您的赞赏和建议，期待您继续保持创作的热情！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。