通过指令反向翻译进行自我对齐

本文介绍了一种通过自动标注网络语料库与人类编写的文本,生成高质量指令遵行数据的方法。研究者利用OpenAssistant种子数据训练LLaMA模型,并探讨了数据质量、数量和规模效率对模型性能的影响。同时,也指出了可能的偏见问题和模型谨慎响应的特点。
摘要由CSDN通过智能技术生成

1、写作动机:

对齐大型语言模型以执行指导性任务通常需要在大量人工标注的指令或偏好信息上进行微调,然而,使用此类高质量数据对指令遵循任务进行标注是难以扩展的。

2、贡献:

提出了一种可扩展的方法,通过自动标注人类编写的文本与相应的指令信息,构建高质量的指令遵行语言模型。

3、方法架构:

核心步骤:

  1. 自我增强:为未标记的数据,即网络语料库,生成指导信息,以产生用于指导微调的候选训练数据的(指导,输出)对。
  2. 自我筛选:自我选择高质量的演示示例作为训练数据,以微调基础模型以遵循指导。

4、实验:

4.1实验设置和种子和增强数据统计:

使用来自Open Assistant数据集 的3200个示例作为人工标注的种子数据来训练模型。

基础模型和微调:使用预训练的LLaMA模型,参数分别为7B、33B和65B,作为微调的基础模型。

未标记数据:使用Clueweb语料库的英语部分作为未标记数据的来源。

4.2数据质量VS数据数量:

4.3数据规模效率:


 

4.4NLP基准:(包括常识推理和大规模多任务语言理解)

4.5消融实验:

5、局限性:

1、由于增强数据来自Web语料库,一个潜在的后果是微调后的模型可能会放大来自Web数据的偏见。

2、模型往往会产生谨慎的响应,甚至拒绝提供信息以履行指令。

  • 8
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值