【生成式人工智能-五-大模型的修炼-阶段三RLHF】


大模型是如何具备人工智能的呢? 上面一篇文章介绍到了前两个阶段,接下来还需要第三阶段的RLHF,下面先复习一下这几个阶段:

大模型修炼阶段

在这里插入图片描述

  1. 第一阶段,自督导式学习
    不需要人工标注数据,自督导式学习,直接使用网络上的大量资料,喂给模型,让模型学会文法知识和世界认知的知识。
    第一阶段的模型形成pre-train的模型,具备常识。

  2. 第二阶段,督导式学习
    人工标注数据,督导式学习,Instruct Fine-tune,微调模型,教会模型人类问答的形式,学会怎么跟人类一样回答问题
    第二阶段回复更具备人类回复方式

  3. 第三阶段,增强式学习Reinforcement learning From Human Feedback (RLHF)
    学会了人类的回复方式,但还是要让模型学会更怎么回复的更好。比如回复涉及到不健康内容,这就不是个好回复。这就继续需要人类去选择那种回复更好,也就是从人类反馈的增强式学习RLHF

第二第三阶段都是微调模型,二者的区别又是什么呢?

Instruct Fine-tune 和 RLHF 的区别和联系

相同点:

  • 都是使用人工标注的数据,对模型微调

区别:

  • 人类负责的事情不同:RLHF阶段,人只是负责选择答案,对模型进行微调,而Instruct Fine-tune需要人类把输入和输出都确定,工作量更大。
  • Instruct Fine-tune关注下一个字输出的结果如何,也就是关心每个生成过程。而 RLHF更加注重结果,而不是过程

RLHF也需要人工来做,要知道人工是费时费力的,难道没有自动化的方法么?
答案是有的,就是再训练一个评价用户输出的模型,这个模型就叫做回馈模型。

回馈模型 Reward Model

下面回馈模型的一种做法:

在这里插入图片描述

把语言模型的输入和输出组合起来都当作输入给回馈模型,让模型给出评分,如果评分比较高,那代表这就是人类可能觉得好的答案,我们就去微调模型,提高这个问题的答案。有了回馈模型以后,我们就可以自动来告诉模型,不再需要人力参与了。

当然,现在也有论文证明,过度跟虚拟人类学习的模型,语言模型的输出受人类欢迎的程度反而会下降,所以又出现了DPO KTO等方法来解决人类反馈问题。

增强式学习的难题

怎么定义什么是好的?

一个问题的答案,几乎是见仁见智的问题。也许有种答案,对人类没用,但是却更加安全。比如让模型查询一些隐私问题,模型出于安全性考虑,并不给出答案,但这个对人类没用呀。所以这个到底应该是给高分还是低分就很难给出,现在很多大型语言模型通常要在safety Reward Model 和 helpful Reward Model之间取得一些平衡也正是这个原因。

人类也无法判定好坏的

就是这个问题即使去问人类,人类也不知道答案。因为这问题本身就没法判定好坏,比如你问模型,老板让我加班是好是坏? 这个问题本来就没有好坏之分的,连人都难以区分出来,那模型的输出就更加难以确认什么是好,什么是坏的了

  • 14
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值