instructGPT论文精读

背景
最近的ChatGPT等大模型太火爆,看看openAI发布的instructGPT(ChatGPT姊妹版模型)论文,记录一下阅读过程。(并不是直接翻译,加入了一些自己的理解,仅供参考,大佬请移步原文 InstructGPT:Training language models to follow instructions with human feedback

论文题目:InstructGPT:Training language models to follow instructions with human feedback

摘要

在服从用户输入的指令,正确理解用户实际意图上,参数越来越大的模型,并不会表现的越来越好。大模型有时候会产生一些有害的、虚假的内容,或者是一些对用户问题毫无帮助的内容。这种情况可以被认为是模型没有和用户的想法对齐。在这篇论文中,我们通过一种基于人类反馈的微调方法,使得在各种任务上,模型能够对齐人类的想法。首先,筛选一批openAI的API上提交的prompt,由labeler编写对应的response,建立一个有监督数据集,用来进行有监督微调。然后,收集了一批对模型输出进行打分排序的数据,最后用这部分数据对模型进行微调,最终的模型成为instructGPT。对一部分prompt进行人工评估后发现,尽管GPT-3的参数有175B,是instructGPT的100倍以上,但1.3B的instructGPT表现却更好。此外,虽然在公开NLP数据集任务的性能有所下降,但模型在输出的真实性、减少有害内容的输出上的表现都有所提升。而且尽管instructGPT还会犯些小错误,但我们的结果已经证明,基于人类反馈的微调是一个有潜力的方向。

1.instruction

大语言模型可以通过给一些提示的方法,在输入中提供一些示例,来执行很多自然语言处理任务。但模型本身经常会有一些超出预料的行为,比如说编造事实,输出有偏见或者有害的内容,或者根本不理会用户的指令。这是因为很多大语言模型的训练目的就是为了预测下一个token,这和理解用户指令,且输出安全、正确的内容就不是一回事。因此,这种训练方式下的大语言模型的目标是非对齐的,从应用角度来说,修正这种产出期望之外的行为是至关重要的。

通过在训练模型遵循用户偏好下输出,这方面的对齐研究已经有了一些进展,包括可以进行明确的指令,或者是些相对模糊的,比如保持真实性、不要偏见、不要输出有毒或者有害的内容。通过Askell的说法,我们希望语言模型是有帮助的(能帮助用户完成任务),诚实的(不应该编造信息或者误导用户),无害的(不会对任何人或者环境造成物理上、心理上甚至是社交伤害)。

我们把焦点放在了利用fine-tuning方法去训练模型的对齐能力,具体是使用基于人类反馈的强化学习方法去fine-tuning GPT-3,让它能够服从各种指令。这种方法利用人类的偏好作为奖赏信号去微调模型。一开始,根据在专门设计的screening 测试的表现,我们雇佣了一批40人的labeler团队去标记数据。然后,收集一批通过openAI API提交的prompt和一些labeler自己写的prompt,由labeler编写模型期望的输出,用这部分数据集训练有监督模型baseline。接下来,我们收集了baseline模型在API上提交的prompt下的输出,并且由labeler对这些输出进行两两比较。在这个比较数据集上,去训练一个奖赏模型(RM),使得模型能够预测哪个输出更符合人类的偏好。最后,用这个RM模型作为奖赏函数,通过PPO算法微调之前的有监督模型baseline,最大化奖赏分数(图2)。这一个过程,让模型能够对齐一小部分群体的偏好(主要是我们的labeler和研究人员),而不是广泛的人类价值观。最终训练完的模型称为instructGPT。

### 关于密码学学术论文精读 对于希望深入了解密码学并进行学术研究的学生来说,选择合适的学术资源至关重要。为了更好地理解密码学领域内的高级概念和技术细节,可以从以下几个方面入手: #### 1. 寻找高质量的学术期刊和会议论文 优质的学术成果通常发表在国际知名的安全性和隐私保护类顶级会议上,如IEEE Symposium on Security and Privacy (S&P),ACM Conference on Computer and Communications Security (CCS),以及Journal of Cryptology等。 这些平台上的文章经过严格的同行评审过程,代表了当前最先进水平的研究方向和发展趋势[^1]。 #### 2. 掌握必要的数学工具 由于密码学是一门高度依赖数学理论支撑的技术科学,在阅读高水平的学术文献之前,确保已经掌握了足够的离散数学、代数结构、概率论等方面的知识是非常重要的。这有助于更深刻地理解和分析各种加密算法的设计原理及其安全性证明方法。 #### 3. 利用在线资源辅助学习 除了传统的纸质书籍外,互联网上也有许多优秀的开源项目和教程可以帮助初学者快速入门。例如CTF Wiki - 密码学提供了丰富的实践案例供爱好者参考;而像Coursera这样的教育平台上则开设了许多由顶尖大学教授讲授的相关课程[^2]。 #### 4. 注重科研能力训练 当准备撰写自己的研究成果时,需要注意遵循正确的写作规范来构建清晰明了的文章框架。一个好的题目应当能够准确概括全文的核心观点,并且具有一定的吸引力以便引起读者的兴趣。同时也要注意避免使用模糊不清或者过于宽泛/狭窄的概念作为主题名称[^3]。 ```python import requests from bs4 import BeautifulSoup def fetch_paper_titles(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') titles = [] for item in soup.select('.paper-title'): title_text = item.get_text(strip=True) if not any(word.lower() in ['tutorial', 'survey'] for word in title_text.split()): titles.append(title_text) return titles[:5] url = "https://example.com/cryptography-papers" print(fetch_paper_titles(url)) ``` 此段Python代码展示了如何通过网络爬虫技术获取指定网站上的最新密码学研究论文列表,并筛选掉综述性质的内容只保留原创性工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值