![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
LLMs论文阅读/源码解析
文章平均质量分 81
LLMs论文阅读/解析
小小帅AIGC
这个作者很懒,什么都没留下…
展开
-
详解NLP多任务统一框架T5:揭秘T5的全能之谜
预训练可以让模型学习到可以被迁移到下游任务重的通用能力和知识。在迁移学习中,模型首先在数据丰富的任务上进行预训练,然后在下游任务上进行微调。训练结构:近期涌现了很多种不同的NLP迁移学习方法,这些方法使用不同的预训练目标、不同的数据集、不同的benckmark和不同的fine-tuning方法。模型结构:几乎所有的pretrain+finetune的范式,都需要在下游的某个特定的nlp任务中添加新的layer,将模型的输出转化为任务特定的输出格式。原创 2024-02-23 10:19:11 · 780 阅读 · 0 评论 -
ChatGPT背后的创新之源:InstructGPT的详细解读~
Training language models to follow instructions with human feedback本篇用自己通俗易懂的方式讲解自己对InstructGPT的理解~原文链接: https://arxiv.org/pdf/2203.02155.pdf大语言模型在生成答案时,可能会产生有毒的、不真实的、对用户没有帮助的(胡编乱造)的输出。例如GPT3虽然能力很强大,但是它的训练数据中来自互联网中大量没有筛选过的内容,其中可能存在各种偏见、歧视性言论等不适当的内容。Instruc原创 2024-02-22 14:27:40 · 1742 阅读 · 1 评论 -
大语言模型的开山之作—探秘GPT系列:GPT-1-GPT2-GPT-3的进化之路
目前NLU(Natural Language Understanding)方向的局限性:有标签的数据相对较少,限制了模型性能的提升。此外,目前预训练语言模型存在一定的局限性1.不能通用:不同损失函数在各个任务上表现差异大,训练数据集并没有包含各个NLP任务。2.不统一:将预训练语言模型迁移到下游任务的方法不统一,不同的子任务,有时还需要调整模型结构。原创 2024-02-22 12:53:54 · 1692 阅读 · 1 评论