中科大：通过DPO增强LLM的鲁棒性

最新推荐文章于 2024-08-27 23:04:44 发布

大模型任我行

最新推荐文章于 2024-08-27 23:04:44 发布

阅读量374

点赞数 6

分类专栏：大模型-模型训练文章标签：人工智能自然语言处理语言模型

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141428243

版权

大模型-模型训练专栏收录该内容

16 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization
🌐来源：arXiv, 2407.07880

🛎️文章简介

🔸研究问题：如何增强直接偏好优化（DPO）框架，提高LLM对噪声的鲁棒性。
🔸主要贡献：论文引入了分布式鲁棒化的DPO（Dr.DPO），通过优化最坏的成对场景，增强了DPO模型的鲁棒性。

📝重点思路

🔺相关工作

🔸RLHF是一种广泛采用的对齐方法中技术，先通过成对偏好数据训练奖励模型，再通过PPO方法优化LLM。
🔸但其固有的强化学习性质，对计算效率和训练稳定性提出了重大挑战。
🔸DPO避开了显式奖励模型学习，通过以成对方式直接学习人类偏好排名来训练LLM。

🔺数据噪声

🔸DPO对数据质量有较高的依赖，根据其来源划分了两个主要噪声类别
🔸逐点噪声（Pointwise noise）指包含不相关或不连贯信息的低质量数据点。
🔸成对噪声（Pairwise noise）指错误的偏好排名数据对。

🔺Dr.DPO方案

🔸首先，在IMDB情感数据集上进行实验，研究逐点噪声对DPO的影响，旨在指定模糊度集中的最坏情况噪声分布下优化预期奖励。
🔸然后，基于分布式鲁棒优化（DRO）的原则，引入了一个新的参数β来调节损失函数，平衡数据对在梯度空间中的重要性，优化逐点噪声的影响。
🔸最后，引入了Dr.DPO增强对成对噪声的恢复能力，同时保持其对点噪声的固有鲁棒性。