大模型[论文]
文章平均质量分 91
大语言模型(LLM)相关论文
愤怒的可乐
这个作者很懒,什么都没留下…
展开
-
[论文笔记]GAUSSIAN ERROR LINEAR UNITS (GELUS)
看完本篇文章你就会深入理解BERT中用到的GELU激活函数。原创 2024-04-28 09:34:03 · 5 阅读 · 0 评论 -
[论文笔记]Root Mean Square Layer Normalization
⭐ 作者在层归一化的基础上移除掉均值相关项,得到了RMSNorm。然后通过实现证明其效果还不错。原创 2024-04-17 19:43:52 · 1453 阅读 · 0 评论 -
[论文翻译]GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
⭐ 本篇工作提出分组查询注意力,简单来说就是在MQA的基础上增加了key-value头的数量,经过实验证明取得了不错的效果。原创 2024-04-13 23:20:49 · 607 阅读 · 0 评论 -
[论文翻译]GLU Variants Improve Transformer
⭐ 作者用流行的激活函数(Swish,GeLU和ReLU等)替换GLU中的激活函数,得到了一个困惑度比较好的GLU变体——SwiGLU,但作者也无法解释效果好的原因。原创 2024-04-13 21:39:12 · 630 阅读 · 0 评论 -
[论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(下)
该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。原创 2024-04-13 19:59:04 · 259 阅读 · 0 评论 -
[论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(上)
该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。原创 2024-04-13 19:56:35 · 133 阅读 · 0 评论 -
[论文笔记]LLaMA: Open and Efficient Foundation Language Models
⭐ 作者提出了LLaMMA系列模型,可以说天不生LLaMMA,开源大模型万古如黑夜。比较详细的介绍了模型实现细节,重要的是开源了实现代码。除了提供了在模型实现优化上的思路外,还给出了提高训练(推理)效率的方法。原创 2024-03-14 20:33:11 · 629 阅读 · 0 评论 -
[论文笔记]BitFit
⭐ 作者提出仅对基于Transformer模型的偏置项进行高效微调的方法——BitFit——就能达到和全量微调媲美(大多数情况下略逊,少数情况下超越)的性能。原创 2023-10-03 09:52:59 · 592 阅读 · 0 评论 -
[论文笔记]P-tuning v2
⭐ 作者提出了P-tuning v2,一种针对提示微调的改进方法。充分挖掘了提示微调的潜力,将连续提示应用于预训练模型的每一层,而不仅仅是输入层(类似prefix-tuning)。在不同模型规模和任务上都达到了和全量微调媲美的结果。原创 2023-09-22 21:44:44 · 734 阅读 · 1 评论 -
[论文笔记]P-tuning
⭐ 本篇工作作者提出了P-tuning,使GPT在NLU上表现比传统的全量微调的GPT更好的效果。证明了语言模型在预训练期间能够有效地捕捉更多世界知识和先前任务知识。原创 2023-09-22 21:42:56 · 460 阅读 · 1 评论 -
[论文笔记]Prompt Tuning
⭐ 本篇工作提出了提示微调,一种仅微调在输入前添加的连续嵌入向量的高效微调方法,在模型规模足够大的情况下达到了媲美传统模型微调的性能。原创 2023-09-21 20:00:00 · 931 阅读 · 0 评论 -
[论文笔记]Prefix Tuning
作者通过固定语言模型的参数而优化一些连续前缀。只需要修改0.1%的参数量,prefix微调能获得较好的效果。通过前馈神经网络来参数化前馈参数矩阵。原创 2023-09-20 20:48:10 · 503 阅读 · 0 评论 -
[论文笔记]Adapter turning
⭐ 本篇论文提出了在Transformer中注入一些适配器层(adapter layer),然后仅微调这些适配器层和归一化层就可以达到和全量微调相似的表现,但前者仅需要微调后者0.5%-8%的参数量。并且通过大量的实验来论证了作者的观点。原创 2023-09-19 20:00:00 · 405 阅读 · 1 评论