【大模型LLM】微调：用更少的数据来训练更好的羊驼

麻辣排骨面

于 2024-08-20 22:18:41 发布

阅读量377

点赞数 18

文章标签：人工智能机器学习语言模型深度学习安全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ytt0523_com/article/details/141369885

版权

前言

ICLR 2024的论文，来自马里兰大学

用更少的数据来训练更好的羊驼

ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA

link：https://arxiv.org/pdf/2307.08701

一、摘要

大型语言模型（LLMs ）通过sft加强指令遵循能力。然而，广泛使用的数据集（例如 A 的 52k 数据）包含许多具有不正确或不相关响应的低质量样本，这对微调具有误导性。

本文提出了一种简单有效的数据选择策略，该策略使用ChatGPT自动识别和过滤掉低质量数据。引入了: ALPAGASUS，它是仅对从52k训练数据中过滤出来的9k高质量数据进行微调。 AG 在多个测试集和受控人类评估上显着优于 GPT-4 评估的原始 Aas。将 7B 的训练时间从 80 分钟减少到 14 分钟。

二、方法

2.1 gpt 打分

prompt：

其中dimension为对应好与坏的一个指导的信息，帮助gpt更好的打分

2.2 data rating and filtering

选择样本score大于某个threshold，留下当样本集

很好理解。

三、实验结果

论文大篇幅都是对于消融实验的补充

3.1 主要实验结果（QUALITY MATTERS MORE THAN QUANTITY）

最后通过阈值选择4.5分，从52002个样本选择出9229个样本最终的性能最好。

score分布：

验证方式采用winrate（胜率）：

3.2 winrate

采用gpt-4作为judge model， prompt如下：

策略是会把 answer1和anwser2前后调转，前后位置各判断一次win与否，相当于相同的prompt，两个模型的结果会比较两次

最终定义：

3.3 比较这种score方式和ramdom sample的效果

结果是score打分之后选取top samples要大于random sample的效果好

四、分析

其实套路非常简单，将人工这步质量评审，直接自动化换成chatgpt进行score打分，并用阈值进行selection。

人工打分的paper有：Lima: Less is more for alignment

问题

chatgpt打分这个逻辑自动化是没问题的，但是是否精准，感觉需要有个人工抽检好一些？
用chatgpt得到的score高的，再用gpt4进行judge，感觉这里可能会有gpt系列风格的bias，实验里的winrate如果用多个模型，如果都得出这个结论就更鲁棒了，相对而言，打分也可以用多个比较强的模型，之后取平均值，或者每个得分都大于阈值。

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

路线图很大就不一一展示了 （文末领取）
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目，地址、代码、文档等等全都下载共享给大家一起学习！
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告（持续更新）👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

麻辣排骨面

关注

18
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
【大模型LLM】微调：用更少的数据来训练更好的羊驼

大型语言模型（LLMs ）通过sft加强指令遵循能力。然而，广泛使用的数据集（例如 A 的 52k 数据）包含许多具有不正确或不相关响应的低质量样本，这对微调具有误导性。本文提出了一种简单有效的数据选择策略，该策略使用ChatGPT自动识别和过滤掉低质量数据。引入了: ALPAGASUS，它是仅对从52k训练数据中过滤出来的9k高质量数据进行微调。AG 在多个测试集和受控人类评估上显着优于 GPT-4 评估的原始 Aas。将 7B 的训练时间从 80 分钟减少到 14 分钟。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。