GPT-4论文精读

GPT-4是一款强大的多模态语言模型,能处理文本和图片输入,展现出接近人类的表现。经过RLHF微调,其在专业基准测试中与人类表现相当。训练稳定性和可预测性增强,且在安全性方面有所提升,但仍有局限性。大语言模型如GPT-4将对工作场所产生重大影响,尤其在代码编写和批判性思考领域。

导言

OpenAI发布的GPT4技术报告重点介绍了GPT4的能力有多么强大,以及安全方面的考虑,但是对训练和提升方法只字未提。Pytorch Lightning框架的创始人William Falcon说GPT-4的technical report其实就告诉大家We use python。

GPT-4和之前所有的模型都不一样的地方,是它可以接受图片作为输入,GPT-4可以允许用户去定义任何一个视觉或语言的任务。总的来说,GPT-4相比之前的GPT系列的模型,它的提升如下:

1. GPT-4是一个多模态模型,能接受文本/图片的输入,输出是纯文本。

2. GPT-4基本能达到类人的表象。

2. GPT-4在许多真实场景中不如人类强大,但在各种专业和学术基准测试中表现出与人类想当的性能。

3. GPT-4训练前所未有的稳定,可以准确地预测模型训练的结果(通过小规模训练的模型,准确预估大模型的结果,具体预测效果见图1)。

训练

GPT-4和之前的GPT模型一样,也是用预测文章中下一个词的方式去训练的。为了和人类的意图尽可能保持一致,用RLHF方法把模型微调了一下。

模型的能力看起来好像是从预训练的过程中得到的,后续的RLHF地微调并不能提高在考试上的成绩。模型的能力是靠堆数据、堆算力,然后用简单的language modeling loss。RLHF是用来对模型做控制,让模型更能知道我们的意图。

预测scaling

GPT-4模型关键问题是如何构建一个深度学习的infra,然后能准确地扩大上去。

Open AI研发出一套整体的infra和优化的方法,可以在多个尺度的实验上达到稳定的可以预测的行为,预测结果如下图。图一中,绿点是GPT-4,黑点是之前用较少算力训练的模型,横坐标是算力,可以通过较少算力的loss对GPT-4的loss做出精准的预测。

                                                                            图1

能力

在平常对话中,GPT3.5和GPT4区别非常小。区别随着任务难度的增加慢慢体现出来。GPT-4更加可靠,更加有创造力,能够处理更加细微的人类的指示。

1.测试GPT-4的考试能力,如下图:

在一些GPT3.5表现很差的考试上,GPT-4进步显著。

2.OpenAI在传统的Benchmark上测试GPT-4的性能,跟之前的language mode(GPT-3.5、LM SOTA、SOTA)相比全面碾压,测试结果如图:

3.证明GPT-4在多语言上的能力,如图:

局限性

GPT-4和之前的GPT系列的模型还有外面的别的模型相比,安全性已经大幅提高,但还不是完全可靠。在内部对抗性事实评估中,GPT-4的得分比最新的GPT3.5高出40%。

危害

Red Teaming 利用人力、利用GPT-4自己去提升safety的要求,GPT-4比GPT-3.5能少回答82%的问题,采取的两个缓解措施具体如下

1. 找各领域专家进行对抗测试,希望让模型学会哪些该回答、哪些不该回答、拒绝不合理的要求。

2. 新增了安全方面的奖励分数,由模型的一个分类器提供,分类器用于评估提示词是否安全。很难保证模型不输出危险内容,但是判断模型输出是否危险是比较容易的。

影响

OpenAI和其他的研究者做了一个报告(arXiv:2303.10130),大概80%的美国的劳动力,他们平时工作中10%的任务会因为这个大语言模型的到来而受到影响。19%的工人会有50%的工作可能被影响。

大语言模型带来的影响和science以及critical thinking的技能反向相关。

而写代码、写文章这些技能点和大语言模型冲突。

Yann LeCun的报告中指出,现在的大语言模型还是有很多地方需要改进。大语言的性能非常amazing,但也会犯一些非常愚蠢的错误,而且大语言模型对真实世界一无所知。接下来的路怎么走,AGI到底怎么做,其实还是一个悬而未决的问题。对于NLP领域、CV领域研究的范式改变了,但research仍然可以继续做,现在正是一切的开始,作为相关领域的研究者,应该保持一颗平常心,坚持学习新技术并探索他们的改进方向。

本文根据B站GPT-4论文精读视频所写,B站视频链接如下:

GPT-4论文精读【论文精读·53】_哔哩哔哩_bilibili

### GPT-2 论文解析 GPT-2 是 OpenAI 发布的一系列大型语言模型之一,其核心理念基于 Transformer 架构,并扩展了生成式预训练的思想。以下是关于 GPT-2 的详细解: #### 1. **背景与动机** GPT-2 延续了 GPT-1 中提出的生成式预训练和判别性微调的理念[^3]。它旨在通过更大规模的数据集和更高的参数量来增强模型的语言理解和生成能力。相比于 GPT-1,GPT-2 使用了更多的训练数据(约 40GB 文本),从而显著提升了模型的表现。 #### 2. **核心技术特点** - **Transformer 架构**: GPT-2 完全采用了单向 Transformer 编码器结构,这意味着它的注意力机制仅关注输入序列的前缀部分,而不像 BERT 那样的双向模型能够同时看到前后上下文。 - **大规模预训练**: GPT-2 利用了大量的互联网文本进行无监督预训练,使其具备广泛的知识基础。这种预训练方式使得模型能够在多种下游任务中表现出色而无需额外标注数据。 - **自回归生成**: GPT-2 是一种自回归语言模型,逐词生成文本。这种方式允许模型在生成过程中逐步构建连贯性和逻辑性[^2]。 #### 3. **主要贡献** - 提出了一个强大的通用语言表示模型,适用于各种自然语言处理任务,包括但不限于翻译、摘要生成、问答等。 - 展示了大模型在少量样本甚至零样本条件下仍能完成复杂任务的可能性。 - 探讨了伦理问题和社会影响,由于其强大的生成能力和潜在滥用风险,在发布初期采取了分阶段公开策略。 #### 4. **局限性分析** 尽管取得了巨大进步,但 GPT-2 存在一定局限性: - 对于某些特定类型的推理任务(如 WIC 或 ANLI),因缺乏双向建模能力而导致效果不如其他专门设计的方法好。 - 在面对需要深入理解长文档后再作答的情况下也可能遇到挑战。 #### 示例代码展示 下面是一个简单的 Python 脚本来加载并测试 Hugging Face 版本下的 pre-trained GPT-2 模型: ```python from transformers import pipeline, set_seed set_seed(42) nlp = pipeline('text-generation', model='gpt2') result = nlp("Artificial intelligence is", max_length=50, do_sample=True) print(result[0]['generated_text']) ``` 此脚本利用 `transformers` 库中的 `pipeline` 功能快速搭建起了一个基于 GPT-2 的文本生成环境。 --- ###
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值