论文阅读
文章平均质量分 89
更新自己阅读过的论文笔记~
Yulki
努力成为理想中的极客
展开
-
【论文笔记】BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models
BitFIt只对模型的bias进行微调。在小规模-中等规模的训练数据上,BitFit的性能与全量微调的性能相当,甚至有可能超过,在大规模训练数据上,与其他fine-tuning方法也差不多。作者提出,fine-tuning是在模型训练中的知识暴露而不是在新领域学习新领域任务。原创 2024-06-20 13:47:41 · 264 阅读 · 0 评论 -
【论文笔记】The Power of Scale for Parameter-Effificient Prompt Tuning
与 GPT-3 使用的离散文本提示不同,软提示是通过反向传播学习的,并且可以调整以合并来自任意数量的标记示例的信号。该方法是在T5上面进行实验的,随着模型大小的增加,该方法与全量微调的差距越来越小。作者的方法可以看作是 Li 和 Liang (2021) 最近提出的“prefix-tuning”的简化,我们提供了与这种方法和其他类似方法的比较。最后,我们表明,使用软提示调节冻结模型可为域转移带来稳健性优势,并实现高效的“提示集成”。原创 2024-06-21 11:00:00 · 576 阅读 · 0 评论 -
【论文笔记】Prefix-Tuning: Optimizing Continuous Prompts for Generation
微调会修改所有语言模型参数,因此需要为每个任务存储完整副本。作者提出了前缀调整,这是自然语言生成任务微调的一种轻量级替代方案,它保持语言模型参数不变,而是优化**一系列连续的特定于任务的向量,称之为前缀。**灵感来源于prompt,在两个任务上使用prefix-tuning:在GPT-2上table-totext generation,在BART上面总结。原创 2024-06-21 08:30:00 · 1146 阅读 · 1 评论 -
【论文笔记】Parameter-Effificient Transfer Learning for NLP
克服微调训练不高效的问题,增加一些adapter模块,思想就是固定原始的网络中的参数,针对任务增加一些可以训练的参数,新任务无需重新访问以前的任务,产生高度的参数共享。与完全微调相比,仅仅增加了3.6%的参数,就接近了SOTA的结果。原创 2024-06-20 13:29:58 · 1230 阅读 · 1 评论 -
【论文笔记】LoRA LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
随着模型越来越大,全量微调变得越来越不可行。作者提出了低秩适配器(LoRA),它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中,大大减少了下游任务的可训练参数的数量。在GPT-3 175B使用Adam上,与全量微调相比,LoRA减少了10,000倍参数量,减少了3倍GPU内存消耗。🧐与Adapter相比,没有额外的推理延迟下面是对语言建模问题的简要描述,特别是在给定特定任务提示的情况下条件概率的最大化。原创 2024-06-20 13:24:35 · 1343 阅读 · 0 评论