蚂蚁:LLM监督微调的改进损失函数

在这里插入图片描述

📖标题:Minor SFT loss for LLM fine-tune to increase performance and reduce model deviation
🌐来源:arXiv, 2408.10642

摘要

🔸Instruct LLM提供了一种用于将LLM与人类偏好对齐的大规模语言模型范式。该范式包括受监督的微调和从人类反馈中进行强化学习。该范式也用于下游场景,以使LLM适应特定的语料库和应用程序。与受监督微调(SFT)相比,有许多努力集中在RLHF上,并提出了几种算法,例如PPO、DPO、IPO、KTO、MinorDPO等。同时,SFT的大部分工作集中在如何收集、过滤和混合高质量数据上。
🔸在本文中,借鉴DPO和MinorDPO的见解,我们提出了一个用于衡量优化模型和原始模型之间差异的SFT训练指标,以及一种可以增加训练效果、减少优化LLM和原始LLM之间差异的损失函数MinorSFT。

🛎️文章简介

🔸研究问题:当基础模型足够强大时,如何训练才能避免过多改变语言分布以保持通用性和多样性?
🔸主要贡献:论文提出了一种改进的损失函数MinorSFT,通过引入动态样本级别的系数来控制学习强度,从而在减少模型偏离的同时提高性能。

📝重点思路

🔺相关工作

🔸根据人类反馈进行强化学习,是一种使LLM与人类偏好保持一致的流行技术,通常先通过SFT监督训练LLM,再通过PPO等偏好对齐算法进一步优化。
🔸常见的偏好对齐算法包括DPO、MinorDPO、IPO和KTO等,都使用显式或隐式约束(如KL散度)来限制LLM优化的偏差。

🔺论文方案

🔸主要思想:借鉴DPO等启发,将约束引入SFT,以减少LLM偏差并保持多样性,也许能够进一步提高性能。
🔸实现方案:提出了一种名为MinorSFT的改进损失函数,该函数在SFT阶段引入了一个动态样本级别的系数,以控制学习强度。
🔸原理分析:该系数能够隐式调整语料库分布,使得训练过程中更多地关注复杂或困难的样本,从而在保持模型多样性的同时减少模型偏离。

🔎分析总结

🔸MinorSFT在三个数据集上都表现最佳,这归功于样本级别的动态系数,使得训练更多地关注复杂样本。
🔸MinorSFT需要比原始SFT更高的学习率来达到最佳性能,因为样本动态系数在训练过程中会随着奖励的增长而衰减。
🔸尽管需要更高的学习率,MinorSFT相比原始SFT具有更低的偏离度。
🔸使用DPO的SFT表现不如MinorSFT,原因在于DPO使用相同的超参数β来处理所有样本,而β作为平均因子导致了性能回归。

💡个人观点

论文的核心在于通过动态样本级别的系数来控制学习强度,使得训练过程能更有针对性的学习。

  • 12
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值