OpenAI开源“weak-to-strong“方法代码框架！我们带你一探究竟-CSDN博客

OpenAI的Superalignment团队开源了weak-to-strong框架，展示了一个弱模型如何监督更强大的模型，包括GPT-2和Qwen的案例。代码库提供微调和训练功能，但与论文实验略有出入，结果相似。

摘要由CSDN通过智能技术生成

深度学习自然语言处理原创作者：pp

几天前，OpenAI「超级对齐」(Superalignment)团队发布了成立以来的首篇论文，声称开辟了对超人类模型进行实证对齐的新研究方向。GPT-2能监督GPT-4，Ilya带头OpenAI超级对齐首篇论文来了：AI对齐AI取得实证结果

可能是为了让大家更容易实现论文中的思路，也可能是为了让自己的研究更加接地气，不再被调侃为“CloseAI”。在公布这篇论文的同时，

OpenAI也在GitHub开源了论文提出的"weak-to-strong"框架的代码

[1]

图片

在观察了仓库中的代码之后我们有了如下发现：

主代码仓库是一个对二元分类（binary classification）任务的“weak-to-strong”方法的实现。包含用于微调预训练语言模型的代码（训练弱模型，生成若标签），以及针对来自另一种语言模型的标签进行训练的代码（使用弱标签，训练强学生）。

Vision目录中则包含视觉模型"weak-to-strong"的实现（AlexNet -> DINO）。

支持论文中描述的各种损失函数，如置信度辅助损失函数，也可以自己定义损失函数，见weak_to_strong/loss.py。

在主文件train_weak_to_strong.py中，OpenAI以自己的GPT2模型，和国产的Qwen（千问）模型为例

Weak-to-strong关注的重点是：一个弱监督者如何监督一个比它聪明得多的模型？为此，OpenAI提出了一个两阶段的训练方法：

对于一个给定的任务：

OpenAI在仓库中提到，目前开源的代码并非与论文实验部分完全一致，不过是结果相近的。

"STATUS: This codebase is not well tested and does not use the exact same settings we used in the paper, but in our experience gives qualitatively similar results when using large model size gaps and multiple seeds. Expected results can be found for two datasets below. We may update the code significantly in the coming week."

这次开源的weak-to-strong实现代码较为简单，感兴趣的朋友可以去尝试一下，结合论文也许会有不一样的感受。OpenAI正在大力研究超级对齐(Superalignment)，不仅仅放出论文，开源代码，同时也宣布了一项高达1000万美金💴的资助计划，我们将在之后的文章中为您带来详细解读，敬请期待！

weak-to-strong框架的代码: https://github.com/openai/weak-to-strong/tree/main