北大：LLM高质量数据生成框架FANNO

大模型任我行

于 2024-08-23 09:19:57 发布

阅读量768

点赞数 8

分类专栏：大模型-指令建设文章标签：人工智能自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141453127

版权

在这里插入图片描述

📖标题：FANNO: Augmenting High-Quality Instruction Data with Open-Sourced LLMs Only
🌐来源：arXiv, 2408.01323

🛎️文章简介

🔸研究问题：如何利用开源的大语言模型（LLM）高效地生成高质量、多样化和复杂的指令数据？
🔸主要贡献：论文提出了FANNO框架，通过文档预筛选、指令生成和响应生成的结构化流程，自动生成高质量的指令数据集。

📝重点思路

🔺相关工作

🔸指令数据生成：当前主要包括人工专家注释和大型LLM合成两种方法，但成本都比较高。
🔸指令调优：使用指令在广泛的上游任务数据集上训练LLM，然后通过新指令启用新的、未见过的下游任务的通用能力。
🔸数据质量增强：主要集中在指令难度、多样性和正确性等几个关键方面，还可以通过多个LLM和自我反思的协作方法来提高数据质量。

🔺论文方案

🔸FANNO框架：包括三个关键步骤：文档预筛选、指令生成和响应生成。
🔸文档预筛选࿱

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型任我行 随意啦，喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。