【论文阅读】Instruct GPT论文阅读

openAI给出chatGPT的四个功能

  1. fix code
  2. chatgpt是有道德的
  3. chatgpt是理解上下文的,8000字以内是可以联系上下文的
  4. chatgpt是理解自己的局限性

GPT可以支持多轮对话

一般openAI是先发模型和博客,再发论文

InstructGPT

发表在2022.3.4

训练语言模型,使他能预测你问的东西

标一点数据,然后再做一点微调

OpenAI Alignment openAI的联合项目 有两个team leader

摘要

把语言模型做大不是用户的本意,在AI模型的落地上,安全性和有效性是非常重要的。

语言模型的输出非常灵活,这也导致输出错误的概率会更大一些。

大家对创业公司(openAI)的容忍度会更大一些

把语音模型和人类意图做align,方法是把语言模型和人类反馈做微调

在openAI的API收集了很多问题,然后对模型做了微调

又收集了一些数据,收集了他一个问题的很多答案,做了一个排序的数据集,看哪个回答更好点

Introduction

问题、方法、结果

训练的目标函数和想要让他干的事情是不一样的,目标函数是按照预测下一个词是什么来做的,但是我们想让他干的事情是能够有帮助的无害的事情

方法:RLHF 强化学习 让模型来生成符合人偏好的答案

Step1

首先写了一堆问题,作为模型的输入的数据

让人来写答案

问题+答案,拼成一段话,用这些数据去训练GPT-3

SFT有监督的微调

训练出了第一个模型

Step2

给一个问题,给SFT生成答案

生成四个问题的答案

让人来标四个答案谁好谁坏,得到排序的标注

训练一个RM模型(rewarded model)

给prompt,给输出,并得到一个答案的分数

Step3

微调SFT

用RM的分数去微调SFT,使得他的参数更加可以得到比较高的分数

最后训练出来的模型就叫intruct GPT

工作人员觉得instructGPT的答案会比GPT3好很多

在某一个任务上做微调,在别的任务上的效果可能会下降

微调对数据还是比较敏感的

模型具有泛化性

模型还是会犯一些简单的错误

更像一个玩具,而不是一个工具

数据集

prompt的来源

  1. 标注人员去写了很多问题
  2. 让标注人员写一个指令
  3. 用户给提供了一些支持

训练了第一个instructGPT

放在他们的playground里,再把问题采集回来做了一些筛选

得到了更多的prompt,按照用户来划分,并把用户的个人信息过滤掉

Human-in-the-loop

数据集的use-case: Generation、openQA、brainstorming、classification、extract

scaleAI数据标注的公司,怎么样去挑人 Human data collection

长对话的判断都是比较模棱两可的任务

并且要同意对方的评测

数据标注有很多技术是可以借鉴的

训练

RM:pairwise排序损失

对9个答案排序,产生了36对排序的信息

有两两比较信息

RL

PPO目标函数+原始GPT3的目标函数

在强化学习里,模型叫Policy

环境会发生变化

学习一个人的排序来给一个实时的反馈

结论

给定一些标注数据,在一个大的语言模型上去训练

优化帮助性

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
InstructGPT是一种基于指示学习的语言模型。指示学习的优点是在经过多任务的微调后,能够在其他任务上做zero-shot,而提示学习则是针对一个任务的。相比于提示学习,指示学习具有更好的泛化能力。InstructGPT采用了GPT-3的网络结构,并通过指示学习构建训练样本来训练一个反应预测内容效果的奖励模型(RM),最后通过这个奖励模型的打分来指导强化学习模型的训练。InstructGPT的训练流程与ChatGPT类似,都依赖于一种名为RLHF(人类反馈强化学习)的训练方法。因此,InstructGPT与ChatGPT是一脉相承的,只是在一些细节上有所修改。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [ChatGPT/InstructGPT详解](https://blog.csdn.net/VucNdnrzk8iwX/article/details/128945676)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [InstructGPT 与 ChatGPT的学习与解读](https://blog.csdn.net/jxsdq/article/details/128653265)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值