chatgpt

最新推荐文章于 2024-04-27 10:04:24 发布

放下扳手&拿起键盘

最新推荐文章于 2024-04-27 10:04:24 发布

阅读量3.7k

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/william_hehe/article/details/129480701

版权

paper：Offsite-Tuning: Transfer Learning without Full Model

小结：通过一种策略实现对大模型的微调，而不需要知道大模型的权重参数和数据样本属性。但是同样需要巨大的算力来进行微调。

摘要：

1.迁移学习对于基础模型适应下游任务很重要。然而，许多基础模型是专有的，因此用户必须与模型所有者共享他们的数据以进行微调模型，这是昂贵的，并引起隐私问题。此外，微调大型基础模型是计算密集型的，对大多数下游用户来说不切实际。

2.在本文中，我们提出了 Offsite-Tuning，一种隐私保护高效的迁移学习框架，无需访问完整模型即可将十亿参数的基础模型适应下游数据。在异地调整（Offsite-Tuning）中，模型所有者向数据所有者发送一个轻量级适配器（lightweight adapter）和一个有损压缩模拟器（lossy compressed emulator），然后数据所有者在模拟器的帮助下根据下游数据对适配器进行微调。然后将微调的适配器返回给模型所有者，模型所有者将其插入完整模型以创建适应的基础模型。

3.异地调整保护了双方的隐私，并且在计算上比需要访问完整模型权重的现有微调方法更有效。我们展示了异地调优对各种大型语言和视觉基础模型的有效性。Offsitetuning 可以达到与全模型微调相当的精度，同时具有隐私保护和高效性，可实现 6.5 倍的加速和 5.6 倍的内存减少。

code：GitHub - mit-han-lab/offsite-tuning: Offsite-Tuning: Transfer Learning without Full Model

Paper: LoRA: Low-Rank Adaptation of Large Language Models

小结：实现基于RNN的自然语言处理算法模型（匹敌于gpt-2）的训练，并且可以基于4090的显卡实现算法模型的微调训练。

摘要：

自然语言处理的一个重要范例包括对一般领域数据的大规模预训练和对特定任务或领域的适应。当我们预训练更大的模型时，重新训练所有模型参数的完全微调变得不太可行。以 GPT-3 175B 为例——部署微调模型的独立实例，每个实例都有 175B 参数，成本高得令人望而却步。

1.我们提出了 Low-Rank Adaptation，即 LoRA，它冻结了预训练模型的权重，并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中，大大减少了下游任务的可训练参数数量。

2.与使用 Adam 微调的 GPT-3 175B 相比，LoRA 可以减少 10,000 倍的可训练参数数量和 3 倍的 GPU 内存需求。LoRA 在 RoBERTa、DeBERTa、GPT-2 和 GPT-3 上的模型质量表现与微调相当或更好，尽管可训练参数更少、训练吞吐量更高，而且与适配器不同，没有额外的推理延迟。我们还对语言模型适应中的排名不足进行了实证调查，这揭示了 LoRA 的功效。我们发布了一个促进 LoRA 与 PyTorch 模型集成的软件包，并为 RoBERTa、DeBERTa 和 GPT-2 提供了我们的实现和模型检查点。

code：https://github.com/Blealtan/RWKV-LM-LoRA

Paper: LLaMA: Open and Efficient Foundation Language Models

小结：提供预训练模型和API，可用于算法推理预测。

摘要：

1.我们介绍了 LLaMA，这是一组基础语言模型，参数范围从 7B 到 65B。我们在数万亿个tokens上训练我们的模型，并表明可以仅使用公开可用的数据集来训练最先进的模型，而无需诉诸专有和不可访问的数据集。特别是，LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B)，而 LLaMA65B 可与最佳模型 Chinchilla-70B 和 PaLM-540B 竞争。我们将所有模型发布给研究社区。

code：GitHub - facebookresearch/llama: Inference code for LLaMA models