GPT-4 Technical Report论文阅读笔记

GPT-4 Technical Report

Introduction

性能非常好

律师资格考试前10%,gpt3.5是后10%
请添加图片描述

在基础的banchmark上的分数也很高

这里主要提到的banchmark是MMLU

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

请添加图片描述
请添加图片描述
讨论了一个核心挑战,如何去预估大模型的能力
This report also discusses a key challenge of the project, developing deep learning infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to make predictions about the expected performance of GPT-4 (based on small runs trained in similar ways) that were tested against the final run to increase confidence in our training.

也有局限性:容易产生幻觉、context window有限制,不能学习。

GPT-4 的能力和局限性带来了重大而新颖的安全挑战,鉴于其潜在的社会影响,我们认为仔细研究这些挑战是一个重要的研究领域。

主要介绍的是能力和局限性以及安全性

Predictable Scaling

These improvements allowed us to reliably predict some aspects of the performance of GPT-4 from smaller models trained using 1, 000× – 10, 000× less compute.

用小模型的能力去预测大模型的能力

Loss Prediction

有人提出“一个合理的训练最终的损失可以通过计算量的幂律来近似”

为了验证可拓展性,openai通过拟合公式,准确预测了loss
在这里插入图片描述在这里插入图片描述
c是文中提到的inreducible los

Scaling of Capabilities on HumanEva

计算量于humman-eval数据集上的通过率
在这里插入图片描述
P是humman-eval数据集上的一个子集,表示在给很多模型进行测试最少有一个是对的的题目(就是模型可以做出来的提名)

在这里插入图片描述

这个例子说明了,预测特定任务上性能的可行性。

但是一些例子也不能很好预测,就比如下面这个图:

模型越大效果越差,但是GPT4,逆转了这一趋势

在这里插入图片描述
openai任务这个工作是重要的

We believe that accurately predicting future capabilities is important for safety. Going forward we plan to refine these methods and register performance predictions across various capabilities before large model training begins, and we hope this becomes a common goal in the field.

Capabilities

主要是一些考试的结果

在这里插入图片描述
在这里插入图片描述

同时模型的这个能力似乎只来自于预训练而不是RLHF。

在这里插入图片描述

这里主要是评价了考试里的多选题

在这里插入图片描述

之后测试了一些benchmark上的结果

在这里插入图片描述

这些banckmark基本上都是英语的,为了测试多语言能力,openai把MMLU上的涵盖57个学科多选题用Azure Translate翻译成其他语言,在进行测试,发现GPT4的能力比GPT3.5强很多。

与之前的模型相比,GPT-4 在遵循用户意图方面有了很大改进[63]。在提交给 ChatGPT [64] 和 OpenAI API [47] 的 5,214 条提示数据集上,GPT-4 生成的回复比 GPT-3.5 生成的回复在 70.2% 的提示上更受欢迎7。

在这里openai发布了一个评测的数据集https://github.com/openai/evals

visual Inputs

在这里插入图片描述

可以理解笑话。

局限

首先会产生幻觉

对抗性得分的结果,比chatgpt的性能好很多

在这里插入图片描述

分数为1代表,模型的答案100%符合人类判官的预期。

同时也在Truthful QA上进行了测试,结果如下

在这里插入图片描述

经过RLHF之后,显著的提升。

另一个有趣的现象

However, after the post-training process, the calibration is reduced (Figure 8).

之前提到了经过RLHF之后模型的准确率并没有什么差别,这里有又给出了calibration的不同,说明改变了分布,在某些方面损坏了模型的能力 。

在这里插入图片描述

Risks and mitigations

Adversarial Testing via Domain Experts

专家提出一些刁钻的问题,让模型去回答。一方面测试了模型能力,一方面收集到了更多数据。

在这里插入图片描述


Model-Assisted Safety Pipeline

虽然使用RLHF可以比较好的aligned user。但是经过RLHF之后对于不安全的输入任然表现的很脆弱,同时在安全和不安全的输入上表现的不那么受欢迎。作者认为这是因为在训练reward model的时候对reward model的指令说明不足。

为了在更精细的层次上引导模型采取适当的行为,我们在很大程度上依赖模型本身作为工具。我们的安全方法由两个主要部分组成:给RLHF加安全相关的数据和基于规则的奖励模型rule-based reward models (RBRM)。

是一系列分类器,为RL的过程添加额外的信号

在这里插入图片描述

大概描述是这样的,输入为prompt(可选)、output from the policy model,human-written rubric。给正确的模型更多奖励

在这里插入图片描述

Improvements on Safety Metrics

在安全性方面提高了很多


在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值