清华&CMU:LLM多阶段自我合成数据

在这里插入图片描述

📖标题:SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning
🌐来源:arXiv, 2407.12874(被COLM2024接收)

🛎️文章简介

🔸研究问题:如何通过自我合成数据来提高大语言模型(LLM)在特定任务的指令遵循能力。
🔸主要贡献:论文提出了SELF-GUIDE框架,通过自我合成训练数据并在此数据上进行微调,使得LLM能够更好地理解和遵循特定任务的指令。

📝重点思路

🔺相关工作

🔸手工制作的数据集在监督和增强各种NLP任务发挥了关键作用,当前研究用LLM来合成数据降低成本。
🔸尽管LLM合成的数据存在噪音,但仍然可以作为指令微的有效训练资源,这意味着预训练LLM的参数知识包含了指令理解能力。
🔸当前的指令合成,对种子数据、人工管理和教师模型都存在一定的依赖性。

🔺论文方案

🔸输入生成:根据任务类型设置提示模板,将种子示例输入提示模板生成指令,经过规则筛选。
🔸输出生成:采用传统的上下文学习技术,给定指令生成对应的输出,经过规则筛选。
🔸质量优化:通过调整各种超参数,包括生成输入的初始数量、输入生成的温度、输出生成的温度、训练时期等参数,以便提高数据生成质量。

🔎分析总结

🔸SELF-GUIDE在分类和生成任务上,都优于传统的小样本学习。
🔸利用合成数据方面,微调要优于上下文学习。
🔸SELF-GUIDE不仅学习表面的输出格式和标签结构,还能更深入地理解任务本身。
🔸噪声过滤对于分类任务至关重要,而长度过滤对于生成任务至关重要。

💡个人观点

论文利用LLM的自我生成能力来减少对外部资源的依赖,并通过自我合成微调提高模型在特定任务上的表现。

附录

在这里插入图片描述
在这里插入图片描述

  • 9
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值