📖标题:R.I.P: Better Models by Survival of the Fittest Prompts
🌐来源:arXiv, 2501.18578
🌟摘要
🔸训练数据质量是最终模型质量最重要的驱动因素之一。在这项工作中,我们介绍了一种基于低质量输入提示导致高方差和低质量响应的假设来评估数据完整性的方法。这是通过测量被拒绝的响应质量以及所选和被拒绝的偏好对之间的奖励差距来实现的。
🔸我们的方法“拒绝指令首选项”(RIP)可用于过滤现有训练集中的提示,或制作高质量的合成数据集,与未过滤的数据相比,在各种基准测试中都能获得巨大的性能提升。使用Llama 3.1-8B-Instruct,RIP将AlpacaEval2 LC获胜率提高了9.4%,竞技场难度提高了8.7%,WildBench提高了9.9%。使用Llama 3.3-70B-Instruct,RIP将竞技场难度从67.5提高到82.9,在排行榜上从第18位提高到第6位。
🛎️文章简介
🔸研究问题:如何通过有效的数据过滤方法提升大语言模型(LLM)的训练数据质量?
🔸主要贡献:论文提出了一种名为拒绝指令偏好(RIP)的数据过滤方法,显著提高了模型性能