大模型学习笔记二——大模型的能力

最新推荐文章于 2024-09-09 17:46:50 发布

xzj110804

最新推荐文章于 2024-09-09 17:46:50 发布

阅读量462

点赞数 8

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xzj110804/article/details/134980755

版权

2.1语言模型的适应性：从语言模型到任务模型的转化

任务在这被定义为从输入到输出。（这个适应可以理解为，原来就是模型只是单纯的理解这句话，适应之后能够回答这句话）。

这个过程要两个输入：1、任务的自然语言描述；2、训练（一是有监督的学习另一个是通过上下文学习。）

关于GPT-3的任务的讨论点和结果之类的。

2.1.1LM

关于语言模型会给文本分配什么概率，怎么分配，之前都有一定的介绍。

困惑度用于衡量语言模型的性能。它可以解释为模型在预测下⼀个词时的平均不确定性。困惑度越低越准确。困惑度定义：

但是一个序列越长，其联合概率越趋近于0.所以不太能采用算术平均，通常采用几何平均：

公式中的表达的是编码长度，我们计算的是平均长度，反映了下一个词的选择数量，数量越多，选择越多，困惑度越高。

两类错误：

召回错误：未能正确为某个词分配概率值；

精确度错误：为错误的词序过度分配了概率值。

2.1.1.1Penn Tree Bank

Penn Tree Bank经典数据集，PTB语⾔模型基准测试涉及对原始数据集的⼀些重要预处理。

2.1.1.2LAMBADA

任务：预测句子最后一个词。

动机：对较长内容建模，并有依赖。

2.1.1.3 Hellaswag

任务：从⼀系列选择中选出最适合完成句⼦的选项。

动机：评估模型进⾏常识推理的能⼒。

2.1.2 Question answering

基于已有的数据集的训练给出答案。

2.1.2.1 TriviaQA

任务：给定⼀问题后⽣成答案

2.1.2.2 WebQuestions

任务：和TriviaQA类似是问答任务

2.1.2.3 NaturalQuestions

任务：回答问题

2.1.3 Translation

翻译模型

2.1.4 Arithmetic

算数模型

2.1.5 News article generation

任务：给定标题和副标题，⽣成新闻⽂章。

2.1.6 Novel tasks

2.1.6.1 使⽤新词

任务：给定⼀个新造的词和定义，⽣成使⽤该词的句⼦。

2.1.6.2 纠正英语语法

任务：给定⼀个不合语法的句⼦，⽣成其合语法的版本。

2.1.7 Other tasks

一些其他的任务。

（本文为学习笔记，欢迎大佬勘误！）

学习资料：

https://github.com/datawhalechina/so-large-lm/tree/main

关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
大模型学习笔记二——大模型的能力

任务在这被定义为从输入到输出。（这个适应可以理解为，原来就是模型只是单纯的理解这句话，适应之后能够回答这句话）。这个过程要两个输入：1、任务的自然语言描述；2、训练（一是有监督的学习另一个是通过上下文学习。关于GPT-3的任务的讨论点和结果之类的。
复制链接

扫一扫

博客等级

码龄3年

3
原创

52
点赞

51
收藏

36
粉丝

关注

私信

热门文章

最新评论

大模型学习笔记——模型架构
CSDN-Ada助手: 恭喜您写了第三篇博客！标题“大模型学习笔记——模型架构”引人入胜，让读者期待能够更深入地了解模型架构的相关知识。您对大模型的学习经验进行了详细的总结，读后让人受益匪浅。在下一步的创作中，我建议您可以考虑进一步探讨模型架构的具体应用场景，或是分享一些实践经验。这样可以使读者更好地将理论知识与实际应用相结合，加深对模型架构的理解。期待您的下一篇作品，继续努力创作吧！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
大模型学习笔记二——大模型的能力
CSDN-Ada助手: 很棒的博文！看到你的第二篇博客，我真的感到很兴奋。你对大模型的能力有着清晰的理解，而且能够用简洁的语言表达出来，让人容易理解。希望你能够继续分享关于大模型学习的笔记和见解。除了你在博文中提到的内容，你还可以进一步探讨大模型的训练技术和优化方法，以及在实际应用中的挑战和解决方案。此外，你也可以关注大模型在不同领域的应用案例，比如自然语言处理、计算机视觉等，这些都是非常值得深入研究的领域。期待看到你更多的精彩分享！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
大模型学习学习笔记（第一天）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617718252。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。