Meta:训练数据过滤提升LLM性能

在这里插入图片描述

📖标题:R.I.P: Better Models by Survival of the Fittest Prompts
🌐来源:arXiv, 2501.18578

🌟摘要

🔸训练数据质量是最终模型质量最重要的驱动因素之一。在这项工作中,我们介绍了一种基于低质量输入提示导致高方差和低质量响应的假设来评估数据完整性的方法。这是通过测量被拒绝的响应质量以及所选和被拒绝的偏好对之间的奖励差距来实现的。
🔸我们的方法“拒绝指令首选项”(RIP)可用于过滤现有训练集中的提示,或制作高质量的合成数据集,与未过滤的数据相比,在各种基准测试中都能获得巨大的性能提升。使用Llama 3.1-8B-Instruct,RIP将AlpacaEval2 LC获胜率提高了9.4%,竞技场难度提高了8.7%,WildBench提高了9.9%。使用Llama 3.3-70B-Instruct,RIP将竞技场难度从67.5提高到82.9,在排行榜上从第18位提高到第6位。

🛎️文章简介

🔸研究问题:如何通过有效的数据过滤方法提升大语言模型(LLM)的训练数据质量?
🔸主要贡献:论文提出了一种名为拒绝指令偏好(RIP)的数据过滤方法,显著提高了模型性能࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值