微调方法大全,你必须了解

提高LLM性能 - 微调LLM的多种方法较小的LLM将会出现类似寒武纪大爆发的情况。尽管这些模型刚开始可能不如GPT-4表现出色,但有不同的技术可以应用于微调它们,使它们在特定用例中与大型模型的性能相匹配。这在大规模上也是值得的努力,因为运行较小、更高效的模型能节省很多(几乎60倍)的成本,同时还能匹配性能。

以下是您可以针对您的用例微调LLM的不同方法:监督式微调 - 这是最常见的方法,您需要一个任务特定的标签数据集。一种流行的技术是LoRa,它涉及在大型预训练模型的现有层中添加低秩矩阵。这些低秩矩阵在参数数量上相对较小,但它们在为特定任务适应模型方面非常强大。其想法是仅微调这些添加的低秩矩阵,同时保持原始的大规模参数不变。当您有特定的任务,例如摘要或从您的采购合同中提取条款,并且您有一些示例或标签数据时,此技术非常有意义。Llama-2的LoRa微调显示出与全参数微调几乎相当的性能,甚至在生成SQL查询或基于文本的功能表示等专业任务中超越了GPT-4。领域特定微调 - 您也可以使用专门的数据语料库来微调模型。例如:PMC-LLaMA是一项旨在为医学构建开源语言模型的努力。该模型是通过令人震惊的480万生物医学学术论文和3万本医学教材进行微调的。临床LLaMA-LoRa微调预训练的Llama以适应下游临床任务,展示了该模型适应医疗保健特定挑战的能力。基于强化学习的微调:强化学习算法,如近端策略优化(PPO),用于优化策略,在这种情况下是用于生成令牌序列的模型的参数化。优化是由奖励函数指导的,该功能定量评估生成序列的质量。这项技术使模型能够学习更复杂的、多步骤的推理,并根据奖励信号调整其响应。用于微调的反馈或奖励可以来自诸如预定义度量、领域特定标准或甚至自动化系统之类的各种来源。基于人类偏好的微调:

在此方法中,人类评估员为模型针对同一提示生成的不同输出提供比较排名。这些排名用于构建奖励模型,本质上是一个将模型输出映射到标量奖励的函数。然后使用强化学习技术(通常是PPO)根据该奖励模型对模型进行微调。这个迭代过程使模型能够更接近于人类的偏好和价值。RLHF(将模型与人类价值对齐)属于此类别,但您也可以在此方法中接收来自聊天机器人的响应或内容推荐的人类反馈。

少样本学习 - 在大型语言模型的背景下,少样本学习涉及直接在提示中提供一些示例任务,以指导模型的行为。从技术上讲,这并不涉及重新训练模型,而是利用模型固有的元学习能力。模型从示例中泛化,以执行手头的特定任务,有效地利用其预训练参数来适应新任务,而无需明确的微调。这在GPT-4上可能非常有效,但也适用于Llama-2上的简单任务。

在尝试微调或任何更复杂的事物之前,始终尝试少样本学习或在上下文中学习。它简单得多。总的来说,预计大型LLM上的创新速度将放缓,并且会有大量的小型LLM爆发(希望在未来几年中会有更多的开源)。不想过于依赖OpenAI的企业可以利用这些较小的LLM,并以合理的价格为他们的任务定制。LLM平台和模型将继续民主化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值