人类对齐的背景与标准

文章目录

背景

    尽管大语言模型在下游任务中表现出优秀的性能,这些模型有时会出现错误或具有危害性的行为,例如无法正确遵循指令、生成虚假信息、以及产生有害、有误导性以及带有偏见的表达。在大语言模型的预训练和有监督微调的过程中,主要训练目标是根据上下文内容来预测下一个词元。但是,这一过程并未充分考虑人类的价值观或偏好,可能导致大语言模型从数据中学习到不符合人类期望的生成模式。为了规避这些潜在风险,研究人员提出了“人类对齐”这一关键概念,旨在保证大语言模型的行为与人类期望和价值观相一致。与预训练和指令微调不同,人类对齐需引入全新的评估标准,如有用性、诚实性和无害性。

    为了更直观地理解人类对齐对于大语言模型的重要性,下例对比了同一个语言模型在对齐前后对于相同输入的不同输出。在这个例子当中,输入的问题刻意包含了具有误导性的逻辑关系,即“土地价格”和“有污染的产业”是有直接关系的。因此,在经过人类价值观对齐之前的大语言模型会被输入中的错误逻辑所引导,产生了带有偏见的建议“农村地区更适合发展污染较严重的产业”。在经济生产中,发展有污染的产业需要综合考虑多方面的因素,不能仅仅因为土地价格更为便宜就认为适合发展相关产业。对齐前的大语言模型给出了一个错误的观点,不符合人类价值观,违背了无害性的原则。而经过与人类价值观对齐之后的大语言模型,先指出了输入问题中包含的错误逻辑(“我们不能简单地认为农村土地价格便

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值