51c大模型~合集25_王德泉上海交通大学-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143740474

我自己的原文哦~ https://blog.51cto.com/whaosoft/11674845

#AI Search

阿里国际推出首个专业版AI Search，为什么它会是下一个B2B谷歌？

经历过「千模大战」的喧嚣，一年半之后，生成式 AI 的应用层创新终于步入爆发期。

年初的 Sora 激起一阵 AI + 视频生成的浪潮。涟漪未散，OpenAI 新的 SearchGPT 又燃起了 AI + 搜索的战火。

AI + 搜索，这其实是生成式 AI 技术浪潮刚涌现时，大部分人对其应用的想象：改变传统的搜索引擎。这一战场上，Perplexity 在另起炉灶，Google 想着自我革新，Bing 忙着乘势而起。

如今，阿里国际也宣布入局，直接带来了一款新产品。但与其它所有人都不同，阿里国际的 AI 搜索切入了一个空白地带：涉及更多行业 Know-How 的深度信息搜索领域。阿里国际选择了自己最擅长的「全球电商」行业，意在改变全球采购流程，使之更加直观和高效。

7 月 31 日在法国巴黎举办的发布会上，阿里国际官宣了全球首个 AI 驱动的 B2B 采购搜索引擎。据了解，这款 AI 采购搜索引擎会在今年 9 月正式亮相。

在巴黎的发布会现场，阿里国际副总裁张阔展示了这款新产品。它能主动理解采购者的自然语言，并转化为专业的采购请求；还能根据全球市场数据预测需求、提供建议，实现更精准的匹配。

业内认为，这将成为全球贸易领域的「下一个 Google」。

「新的 AI 搜索引擎并不是在传统的被动搜索的基础上做提升，这是全新的全球贸易采购体验。」张阔表示。

对于从事采购的中小企业主来说，它首先能听懂你的「大白话」，自动转译成专业采购术语，然后跟你一步步对话，并智能整合全网信息，化被动搜索为主动理解，更精准地理解甚至预测你的需求。

同时，它重构了信息呈现的方式，能主动帮你做信息比较，推荐最合适的供应商。

最后，它还能提供更完整的采购服务，最终帮你完整贸易的全部流程。

如果说过去的 Google，还只是在被动应答，把网页信息跟你输入的关键词匹配，那这一新的 AI 采购搜索引擎，则是在真正理解商品的信息、理解企业的需求，然后主动完成精准匹配。

Sora 的发布，曾让大家惊叹「AI 开始理解并生成真实的物理世界」，那这一 AI 搜索引擎，似乎开始理解现实世界的商业逻辑了？

AI 让「隔行」不再「如隔山」

自互联网兴起的几十年来，「搜索引擎」一直是大众接触各类信息的主流方式。

但我们知道，以传统搜索引擎获取专业领域信息的成本很高，在广袤的互联网上寻找专业知识宛如「大海捞针」，多次尝试之后才能接近想要的结果。

对于跨境电商的买家与卖家更是如此，发现商机、确定采购渠道等环节的工作，耗时耗力且涉及繁琐的数据分类过程，对于人类来说本就是一套很复杂的知识体系。

如果不是本身就具备一定专业知识，甚至连搜什么都不知道。这可能就是传统上「隔行如隔山」的含义。

人们需要能帮忙快捷找到更深度、更有价值的信息、以及更懂自身需求的 AI Search 工具。

擅长指令遵循、长上下文总结、内容生成的大模型技术，成为了撬动这场搜索变革的关键力量。

简单来说，阿里国际推出的这款 AI 采购搜索引擎就像是为通用模型注入了跨境电商领域的专家知识，提供了一种「直观而自然的知识涌现方式」。他们的 AI 产品学习了 10 亿商品和产业知识，这几乎覆盖了全球最大的 B2B 贸易领域的知识库。

在巴黎的发布会现场，阿里国际展示了一位前职业网球运动员西蒙娜的例子。她在退役后发现新兴的匹克球运动很火，想就此开启创业。

但缺乏专业知识，从没接触过全球采购的她，第一步该做些什么呢？

答案是，打开阿里国际的这个 AI 搜索引擎，就像聊天一样告诉 AI 自己的想法。

AI 采购搜索引擎就能会根据对全球所有跟匹克球相关的市场洞察，做深入分析，推荐多个可能的创业方向，比如匹克球拍、训练鞋等等。还全面地列出各个指标：竞争激烈程度、淡旺季、市场需求量、价格段……

看完 AI 调研出来的情况，西蒙娜选择了从匹克球训练鞋入手，并根据自己打网球多年的经验，给它设计的训练鞋提出更多要求：要能够调节训练模式。

当然提出这个想法时，西蒙娜压根没有运动鞋制造业的经验，也不知道训练模式的调节该用什么方式实现。

不要紧，AI 会主动解读：「你其实是要需要找一家能在球鞋上增加配重块的供应商」

很快，全世界最擅长做这类鞋的供应商就展现在西蒙娜眼前了：

在此之后，AI 还能多维度地理解它推荐的各类商品、供应商的信息，一键比较不同供应的各个指标，这下西蒙娜选起来就简单多了。

别小瞧这一步，要是放在以往，靠传统的搜索引擎，创业者或采购者要想完成这一步，就得点开一个个网页，在浩如烟海的信息里寻找想要的商品信息，再记录下来逐一比较。

由此，AI Search 的优势尽数显现，用户获取有效答案的成本，能够比过去下降几个数量级。

此外，这款 AI 采购搜索引擎还将在信息检索之外提供更完整的智能采购服务。

它会借助阿里国际在数字外贸领域 25 年的深耕和积累，AI 采购搜索引擎也将融合交易支付、物流履约等全球贸易各个环节中的专业知识，像一个真正专业的人类采购员一样，帮忙完成沟通总结、跟进交期等等全方位服务。

全球电商是 AI 最好的用武之地

一直以来，全球电商都是 AI 技术最好的应用方向之一。电商行业中丰富的场景，是 AI 绝佳的用武之地。

但阿里国际推出的这款 AI 采购搜索引擎跟以往简单的提效工具截然不同，某种程度上说，它已经不是一个单纯辅助简单工作的 AI，而是太像一位「超级个人助理」了。

这种能力的实现，与生成式 AI 时代当下的多项技术进步密切相关。

众所周知，大模型预训练数据的最常用来源是公共互联网，很多专业领域信息存在过时和缺失问题。

为了解决这个问题，在通用大模型的基础上，业界往往会采用监督式微调来更新模型知识以提升具体能力。RAG（检索增强生成）也是另外一种有效的方法。简单来说，RAG 就是先检索相关文档，然后将其用作额外上下文来执行生成，可以提供对更大知识库的访问。

据了解，阿里国际此次发布的 AI 采购搜索引擎在训练阶段学习了全网超过 10 亿条商品和产业信息，尤其是专业的产品知识。这也是为什么它能精准地将朴实的「大白话」转化为电商领域的专业词汇，并且完成深度的筛选工作，帮助商家完成部分专业知识的短板。

对阿里国际来说，以生成式 AI 技术带来全新的跨境电商体验，将是其全球业务重要的未来增长点。此次 AI 采购搜索引擎的发布，还只是其中一环。

早在去年 11 月，阿里国际就发布了首个 AI 产品「Aidge」，开放了 15 个 API 和多个 Agent 框架，支持 18 种语言，帮助全球商家在不同国家市场经营中，克服语言和文化障碍，提升经营效果。

过去一年，阿里国际在 40 多个场景里测试了 AI 能力，服务了超过 50 万中小商家，有 1 亿款商品得到优化。平均每两个月，商家对于 AI 的调用量就会翻一倍，目前已达日均 5000 万次的规模。

持续的 AI 投入、丰富的 AI 场景和激增的 AI 需求，其实是支撑现在阿里国际推出全新的 AI 采购搜索引擎、以真正 AI 原生的方式改变全球贸易体验的核心要素。

一个个 AI 时代的「专业版 Google」

都要来了吗？

生成式 AI 席卷全球之时，业内曾有一个发人深省的观点：所有的应用都值得用大模型重做一遍。

作为被寄予厚望的「重做」方向之一，「AI Search」对用户体验提升的价值，如今已在实践中被充分验证。从内容推荐到知识整合，任何一个领域的门槛都在持续降低，让普通人也能更直接、轻松地获取信息。

而面向专业赛道「重做」之后，AI Search 的落地价值也更加具像化。阿里国际发布的这款 AI 采购搜索引擎，率先绘制出了「AI 时代 B2B Google」的落地形态，为生成式 AI 技术在各个专业领域的应用打了个样。

随着更多细分领域玩家的加入，可以想见的是，未来每个行业都会有自己的「Google」。

而信息获取方式的变革，带来的影响其实会是本质性的。一场因搜索引发的变革或许会比我们想象中更快到来。开发板商城天皓智联 TB上有视觉设备哦~

#Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models

AI画家的「滑铁卢」：为什么冰可乐不愿意住进茶杯里？

文章的第一作者是上海交通大学博士研究生赵峻图（主页：https://juntuzhao.run），他的研究方向包括计算机视觉和人工智能赋能的生命科学。此外，他还担任上海交通大学校田径队队长。文章的通讯作者为上海交通大学长聘教轨助理教授、博士生导师王德泉（主页：https://dequan.wang）。

设想一下，如果让你画一幅 “茶杯中的冰可乐” 的图片，尽管茶杯与冰可乐的组合可能并不恰当，你仍然会很自然地先画出一个茶杯，然后画上冰块与可乐。那么，当我们给 AI 画家提出 “画出茶杯中的冰可乐” 的要求时，会发生什么呢？在 2023 年 10 月大规模 AI 图像生成模型刚刚兴起时，我们便进行了这种尝试，得到了以下结果：

考虑到 AI 模型更新换代带来的性能提升，我们在 2024 年 7 月又使用了最先进的模型进行了同样的尝试：

可以看出，即使是最先进的 AI 画家（例如 Dall・E 3），也无法凭空构建 “茶杯中的冰可乐” 的场景，它们往往会摸不着头脑，纠结良久后画出一个装满冰可乐的透明玻璃杯。即使是拥有昂贵数据标注基础以及 ChatGPT-4 加持下的最新 Dall・E 3 也无法稳定地 “将冰可乐装进茶杯里”，这一问题在学术界被归类为文生图模型的文本图像不对齐问题（text-image misalignment）。最近，上海交通大学王德泉老师课题组在论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了这一问题的新分支，该论文即将发表在 2024 年 10 月份的第 18 届欧洲计算机视觉大会（ECCV）上。

论文链接：https://arxiv.org/abs/2408.00230
项目链接：https://lcmis.github.io

文本图像不对齐问题是图像生成领域中的一个重要方向，与传统不对齐问题不同的是，在传统不对齐问题中，人们主要关注的是一组概念对中两个概念的相互影响，例如给定 “一个苹果和一个梨” 的需求，得到的图像要么是两个苹果，要么是两个梨，不会出现第三种概念。而在 “茶杯中的冰可乐” 这一例子中，有一个关键的隐藏变量 “透明玻璃杯”，其从未在文本提示中出现，却替代 “茶杯” 出现在了图像中。这种现象在本文中被称为包含隐藏变量的不对齐问题（Latent Concept Misalignment，简称 LC-Mis）。

为了更深入地探索为什么茶杯会消失在图像中，我们首先希望收集一些与 “茶杯中的冰可乐” 存在相似问题的数据。然而，“茶杯中的冰可乐” 问题源于人类的奇思妙想与 AI 的死记硬背之间的冲突，如果仅依靠人类专家冥思苦想来创造新的概念对，效率将会非常低下。因此，我们设计了一个基于大语言模型（LLMs）的系统，利用 LLMs 体内蕴含的人类思维来帮助我们快速收集与 “茶杯中的冰可乐” 存在类似问题的概念对。在这个系统中，我们首先向 LLMs 解释 “茶杯中的冰可乐” 问题背后的逻辑，然后简单地将这一问题划分为几个类别，让 LLMs 按照不同类别的逻辑生成更多的类别和概念对，最后我们使用文生图模型来绘制图像进行检查。然而，我们在后续实验中发现，现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定缺陷。因此，我们只能采用人工评估的方式，我们对每组概念对生成 20 张图像，并根据这 20 张图中正确画出的数量为这组概念对给予 1 至 5 的评级，其中第 5 级表示所有 20 张图像均未能正确生成。

为了找回图像中的茶杯，我们提出了一种名为 Mixture of Concept Experts (MoCE) 的方法。我们认为，如果不从人类处理问题的角度来进行思考，那么人工智能的一切都是毫无道理的。在当今最火热的文生图模型 diffusion models 中，注意力机制会同时处理文本提示中的可乐与茶杯，但这并不符合人类按照概念顺序作画的规律。因此，我们将顺序作画的规律融入到 diffusion models 的多步采样过程中，成功地将消失的茶杯找了回来：

具体来说，LLMs 会首先告诉我们应该先画一个茶杯。接下来，我们将茶杯这一概念单独输入给 diffusion models，完成 T-N 步的采样。而在余下的 N 步采样中，再提供完整的文本提示，“茶杯中的冰可乐”，最终生成一张干净的图像。在此过程中，N 起到了至关重要的作用，因为它决定了为 “茶杯” 分配的采样步数。于是，我们使用一个多模态模型来衡量图像与茶杯以及冰可乐的契合度评分。当图像和两个概念的评分之间相差很大时，说明有一个概念很可能被模型忽略了，于是就需要相应地调整 N 的取值。由于 N 的取值与概念在图中出现概率之间的关系是正相关的，因此这一调整过程是由二分查找来完成的。

最后，我们使用 MoCE 以及各种 baseline 模型在收集到的数据集上进行了广泛的实验，并展示了以 “茶杯中的冰可乐” 为首的可视化修复结果，以及在整个数据集上人类专家评估的结果对比。和几种 baseline 模型相比，我们提出的 MoCE 方法显著地降低了第 5 级 LC-Mis 概念对的占比。另外值得注意的是，MoCE 的性能在一定程度上甚至超越了需要大量数据标注成本的 Dall・E 3（2023 年 10 月版本）：

此外，正如在上文中提到的，现有的自动化评价指标在 “茶杯中的冰可乐” 这一新问题上存在一定缺陷。我们首先仔细挑选了一些带把的透明玻璃杯图像，它们虽然具有茶杯的形状，但是由于其透明玻璃的材质而不能称之为茶杯。我们将这些图像与 MoCE 生成的 “茶杯中的冰可乐” 图像进行了对比，如下图所示：

我们使用了两种当前流行的评价指标，Clipscore 和 Image-Reward，来计算图像与 “冰可乐” 之间的契合程度。图像与冰可乐的契合程度越高，得分就越高。然而，这两种评价指标均对茶杯中的冰可乐给予了明显更低的评分，而对透明玻璃杯中的冰可乐赋予了明显更高的评分。因此，这表明现有的自动化评价指标可能无法识别出茶杯中的冰可乐，因为其模型内部仍存在 “冰可乐 = 冰块 + 可乐 + 玻璃杯” 的偏见，从而导致其无法有效参与 LC-Mis 问题的评价。

总的来说，我们受到 “茶杯中的冰可乐” 例子的启发，介绍了一种文本图像不对齐问题的新分支，即包含隐藏概念的不对齐问题 (LC-Mis)。我们在大语言模型和文生图模型的帮助下，开发了一个系统来收集 LC-Mis 概念对。接下来，我们受到人类绘画规律的启发，将绘画顺序引入 diffusion models 的采样过程，提出了 MoCE 的方法，缓解了 LC-Mis 问题。最后，我们还通过代表例子 “茶杯中的冰可乐” 展示了当下文本图像对齐问题的评价指标存在的缺陷。在未来的工作中，我们将持续深入研究生成式 AI 技术，推动 AI 更好地满足人类的实际需求，通过不断的努力和创新，我们期待见证 AI 在理解和再现人类创造力方面的突破。

#CogVideo

智谱版Sora开源爆火：狂揽4K Star，4090单卡运行，A6000可微调

智谱AI把自研打造的大模型给开源了。

国内视频生成领域越来越卷了。刚刚，智谱 AI 宣布将与「清影」同源的视频生成模型 ——CogVideoX 开源。短短几个小时狂揽 4k 星标。

代码仓库：https://github.com/THUDM/CogVideo
模型下载：https://huggingface.co/THUDM/CogVideoX-2b
技术报告：https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日，智谱 AI 正式发布视频生成产品「清影」，得到大家广泛好评。只要你有好的创意（几个字到几百个字），再加上一点点耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度视频。

官宣即日起，清影上线清言 App，所有用户都可以全方位体验。想要尝试的小伙伴可以去「智谱清言」上体验「清影」生视频的能力。

「清影」的出现被誉为是国内首个人人可用的 Sora。发布 6 天，「清影」生成视频数就突破百万量级。

PC 端访问链接：https://chatglm.cn/
移动端访问链接：https://chatglm.cn/download?fr=web_home

为何智谱 AI 开源模型如此爆火？要知道虽然现在视频生成技术正逐步走向成熟，然而，仍未有一个开源的视频生成模型，能够满足商业级应用的要求。大家熟悉的 Sora、Gen-3 等都是闭源的。CogVideoX 的开源就好比 OpenAI 将 Sora 背后的模型开源，对广大研究者而言，意义重大。

CogVideoX 开源模型包含多个不同尺寸大小的模型，目前智谱 AI 开源 CogVideoX-2B，它在 FP-16 精度下的推理仅需 18GB 显存，微调则只需要 40GB 显存，这意味着单张 4090 显卡即可进行推理，而单张 A6000 显卡即可完成微调。

CogVideoX-2B 的提示词上限为 226 个 token，视频长度为 6 秒，帧率为 8 帧 / 秒，视频分辨率为 720*480。智谱 AI 为视频质量的提升预留了广阔的空间，期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。

性能更强参数量更大的模型正在路上，敬请关注与期待。

模型

VAE

视频数据因包含空间和时间信息，其数据量和计算负担远超图像数据。为应对此挑战，智谱提出了基于 3D 变分自编码器（3D VAE）的视频压缩方法。3D VAE 通过三维卷积同时压缩视频的空间和时间维度，实现了更高的压缩率和更好的重建质量。

模型结构包括编码器、解码器和潜在空间正则化器，通过四个阶段的下采样和上采样实现压缩。时间因果卷积确保了信息的因果性，减少了通信开销。智谱采用上下文并行技术以适应大规模视频处理。

实验中，智谱 AI 发现大分辨率编码易于泛化，而增加帧数则挑战较大。因此，智谱分两阶段训练模型：首先在较低帧率和小批量上训练，然后通过上下文并行在更高帧率上进行微调。训练损失函数结合了 L2 损失、LPIPS 感知损失和 3D 判别器的 GAN 损失。

专家 Transformer

智谱 AI 使用 VAE 的编码器将视频压缩至潜在空间，然后将潜在空间分割成块并展开成长的序列嵌入 z_vision。同时，智谱 AI 使用 T5，将文本输入编码为文本嵌入 z_text，然后将 z_text 和 z_vision 沿序列维度拼接。拼接后的嵌入被送入专家 Transformer 块堆栈中处理。最后，反向拼接嵌入来恢复原始潜在空间形状，并使用 VAE 进行解码以重建视频。

Data

视频生成模型训练需筛选高质量视频数据，以学习真实世界动态。视频可能因人工编辑或拍摄问题而不准确。智谱 AI 开发了负面标签来识别和排除低质量视频，如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过 video-llama 训练的过滤器，智谱 AI 标注并筛选了 20,000 个视频数据点。同时，计算光流和美学分数，动态调整阈值，确保生成视频的质量。

视频数据通常没有文本描述，需要转换为文本描述以供文本到视频模型训练。现有的视频字幕数据集字幕较短，无法全面描述视频内容。智谱 AI 提出了一种从图像字幕生成视频字幕的管道，并微调端到端的视频字幕模型以获得更密集的字幕。这种方法通过 Panda70M 模型生成简短字幕，使用 CogView3 模型生成密集图像字幕，然后使用 GPT-4 模型总结生成最终的短视频。智谱 AI 还微调了一个基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型，使用密集字幕数据进行训练，以加速视频字幕生成过程。

性能

为了评估文本到视频生成的质量，智谱 AI 使用了 VBench 中的多个指标，如人类动作、场景、动态程度等。智谱 AI 还使用了两个额外的视频评估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，这些工具专注于视频的动态特性。如下表所示。

智谱 AI 已经验证了 scaling law 在视频生成方面的有效性，未来会在不断 scale up 数据规模和模型规模的同时，探究更具突破式创新的新型模型架构、更高效地压缩视频信息、更充分地融合文本和视频内容。

最后，我们看看「清影」的效果。

提示语：「一艘精致的木制玩具船，桅杆和船帆雕刻精美，平稳地滑过一块模仿海浪的蓝色毛绒地毯。船体漆成浓郁的棕色，有小窗户。地毯柔软而有质感，提供了完美的背景，类似于广阔的海洋。船周围还有各种玩具和儿童用品，暗示着一个好玩的环境。这个场景捕捉到了童年的纯真和想象力，玩具船的旅程象征着在异想天开的室内环境中无尽的冒险。」

提示语：「镜头跟随一辆装着黑色车顶行李架的白色老式 SUV，它在陡峭的山坡上沿着松树环绕的土路加速行驶，轮胎扬起尘土，阳光照射在沿着土路飞驰的 SUV 身上，为场景投下温暖的光芒。土路缓缓弯曲向远方延伸，看不到其他汽车或车辆。道路两旁的树木都是红杉，点缀着一片片绿植。从后面看，汽车轻松地顺着弯道行驶，让人觉得它正在崎岖的地形上行驶。土路周围是陡峭的山丘和山脉，头顶是湛蓝的天空，上面飘着薄薄的云彩。」

提示语：「一片白雪皑皑的森林景观，一条土路穿过其中。道路两旁是被白雪覆盖的树木，地面也被白雪覆盖。阳光灿烂，营造出明亮而宁静的氛围。道路上空无一人，视频中看不到任何人或动物。视频的风格是自然风景拍摄，重点是白雪皑皑的森林之美和道路的宁静。」

提示语：「鸡肉和青椒烤肉串在烧烤架上烧烤的特写。浅焦和淡烟。色彩鲜艳」

#llms-believe-the-earth-is-flat

大模型也会被忽悠？揭秘AI的信念之旅

本篇论文的第一作者是清华大学交叉信息院的二年级硕士生许融武。主要指导老师为美国东北大学 Weiyan Shi 助理教授、清华大学邱寒助理教授和徐葳教授。

地球是平的吗？

当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来，现代科学技术已经证明了地球是圆形这一事实。

但是，你有没有想过，如果 AI 被误导性信息 “忽悠” 了，会发生什么？

来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现，他们发现大语言模型在误导信息反复劝说下，非常自信地做出「地球是平的」这一判断。

论文链接：https://arxiv.org/pdf/2312.09085
项目主页：https://llms-believe-the-earth-is-flat.github.io/
GitHub 源代码：https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat

生成式人工智能技术的快速发展，为生成虚假信息提供了便利。这些技术不仅能够创建逼真的文本、图像、音频和视频内容，还能够在社交网络上自动发布和传播这些内容。虚假信息的泛滥给社会带来了诸多挑战，但目前对这类信息的确切影响仍不十分清楚。然而，可以预见的是，随着技术的发展，虚假信息的生成和传播将会变得更加容易和普遍。

另一方面，大语言模型的上下文学习能力使其受到误导性信息的影响。这种误导性信息可能会在模型的部署过程中在上下文中被接受，并在模型生成的输出中反映出来，导致其产生不准确或具有偏见的内容。因此，研究者们正在努力探索如何提高大模型对虚假信息的识别能力和抵抗能力，这是提升大模型安全和鲁棒性的重要内容之一。

本篇研究就探索了这种有误信息对于大语言模型知识信念的影响，研究论文已经被 ACL 2024 接收，并选做大会报告（Oral）。

实验：大模型的 “信念” 测试

研究者们首先构建了一个名为 Farm（Fact to Misinform Dataset）的数据集，包含 1500 个事实性问题及其相关的误导性信息。他们在大语言模型的帮助下系统性地构造了更具有说服力的有误信息：首先，他们对原始正确的事实性 QA 进行语义取反或者构造错误答案，随后利用 “越狱” 后的大模型协助生成更具有说服力的长文本有误信息。

利用这些数据，便可以测试大语言模型在多轮对话中面对虚假信息时的反应。测试过程分为三个阶段：初始信念检验、多轮对话中劝说误导、结果信念检验。模型的信念检验通过模型在闭卷 QA 中答案的信心分数反应。通过这种方式，研究者们能够观察到 LLMs 在多轮对话中信念的变化。

多轮测试框架

主要结果

在劝说性交流阶段，研究者们使用了多种策略来误导 LLMs 改变其信念。这些策略包括晓之以理的劝说（LO）、树立权威的劝说（CR）和动之以情的劝说（EM）。结果显示，即使是最先进的模型，如 GPT-4，也有高达 20.7% 的可能性被虚假信息所影响。基于对 ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五种大模型平均准确度（Average Accuracy Rate, ACC）和被误导率（Misinformed Rate, MR）的实验，研究者们有五点发现：

绝大多数大模型都易被虚假信息欺骗：从最先进的 GPT-4 （注：本研究的完成时间是 2023 年 9 月，当时最先进的模型是 GPT-4）到最差的模型，所有模型在经过多轮测试之后，误导率从 20%-80% 不等。
越先进的大模型抵抗虚假信息能力越强：实验表明，抵抗能力最强的是 GPT-4 模型，其能以 80% 坚持自己的事实信念。这给了我们一些宽慰：上下文理解能力越强的模型，并非更容易受到有误信息的干扰！
多次重复虚假信息比单次输出虚假信息更能骗倒大模型：通过多轮引入的虚假信息，其作用要胜过单此的引入，这很符合我们对安全性对齐的常识 —— 有害内容越多，模型越容易被其影响。
运用修辞的劝说性虚假信息更容易骗倒大模型：使用更复杂，更具有说服力的修辞可以增加模型改变看法的概率。这点就和人一样，越 “真实” 的假信息，你越容易相信
逻辑性说服比其它说服方式更有效：模型对逻辑性强的信息特别敏感，无论是真实信息还是虚假信息，只要逻辑连贯一致，就更容易影响模型的判断。这表明，模型在处理信息时，可能过分依赖于表面的逻辑结构，而忽略了对信息来源和内容真实性的深入验证。

ChatGPT 和 GPT4 在不同劝说策略下的正确率（虚线）和误导成功率（实线）

大模型面对虚假信息的五种反应

在面对虚假信息时，AI 表现出了五种不同的行为：拒绝（Rejection)、奉承（sycophancy）、不确定（Uncertainty）、接受（Acceptance）和自我不一致（Self-Inconsisitancy）。这些行为揭示了 AI 在处理错误信息时的复杂性。例如，拒绝行为表明 AI 坚持正确的答案，不受错误信息影响；而奉承行为则表明 AI 在对话中表面上接受错误信息，但内心仍坚持正确答案。

模型的信念和对应面对误信息的行为：拒绝，奉承和接纳

研究还发现，在经过一轮虚假信息交互后，大语言模型的信心程度往往会降低。然而，对于一些问题，重复虚假信息却让大模型更加确信自己的答案，这种现象被称为 “逆火效应（Backfire Effect）”。

如何提升抗虚假信息干扰能力？

研究组发现，由于 RLHF（Reinforcement Learning with Human Feedback）算法，大模型在训练中会倾向于接受用户的输入，即认为外界的 context 总是友善且正确的。而且当大语言模型有足够信息支撑观点时，会对正确的回答更有信心。

为了帮助大模型提升抗虚假信息干扰能力，研究者们提出了一种轻量级解决方案：在检测到虚假信息后，使用 safety system prompt 对大模型进行提醒，并在回答之前从自己的参数化知识中检索相关信息。这种方法在一定程度上减少了虚假信息对大模型的影响。

加入 safety system prompt 后，模型抗干扰能力显著提升

OpenAI 的看法

有趣的是，OpenAI 在 2024 年 5 月发布了最新的 AI 模型行为准则，其中特别提到了 “认知冲突” 的处理。在此部分的示例中，他们使用了 “地球是平的” 这一例子来说明模型在面对与已知事实相冲突的信息时应如何反应，与本次研究团队的标题不谋而合，也更加突显了大语言模型在处理认知冲突时的行为表现的重要性。

https://cdn.openai.com/spec/model-spec-2024-05-08.html

研究启发

随着模型的智能化，大模型逐渐展现出了一些人类的特性，但它们的本质仍然是概率模型。这些模式很有可能仍然是从训练语料中的人类行为学习而来，即是一种 “模仿游戏”。

以上的研究探索了针对简单事实问题，当 LLM 的内部认知和外部信息冲突的时候，LLM 当作何选择，是盲从还是坚持自己的意见？而人类在这种认知冲突的过程中所展现的 “理愈辩愈明”、“思想碰撞出火花” 等能力还是目前的 LLM 所不具备的。

未来的研究可以进一步从模型的内在机理和训练数据中对大模型的行为进行溯源式的分析，提高 AI 的可解释性，并进一步提升跨学科研究，探索大模型的更多潜力。

#OpenAI高层巨变

OpenAI高层大地震！联创辞职总裁休假，网友：领导层成了空壳

刚刚，OpenAI高层大地震：

联创John Schulman辞职跑路，联创&总裁Greg Brockman长期休假，产品副总裁Peter Deng也被曝离职。

John Schulman（约翰·舒曼），长年领导OpenAI强化学习团队，被誉为“ChatGPT架构师”。

也是他在Ilya Sustkever离开之后，临时接管了超级对齐团队。

现在他宣布“做了一个艰难的决定”，加入隔壁Anthropic，也就是Claude团队。

与此同时，OpenAI总裁Greg Brockman也宣布将休长假，直到年底。

OpenAI计划10月1日起在全球各地举办开发者日等活动，他也将缺席。

Brockman自述是在连续工作了9年之后第一次放松，但对年底之后的计划说的比较模糊，也有网友认为是出于保密协议。

在舒曼离职官宣20分钟后，奥特曼在回复中感谢了舒曼的贡献，以及回忆了两人2015年初次见面时的情景。

但截至目前，奥特曼没有对Brockman休假做任何回应。

奥特曼平常有打字句首字母和“i”不用大写字母的习惯，但每当重要同事选择离开时，他都会表现得更正式一些。

著名OpenAI内幕爆料账号苹果哥表示：现在领导层已经成了一个空壳，你们还是赶紧发布产品吧。

ChatGPT架构师离职

舒曼本科在加州理工学习物理，在UC伯克利短暂学习过神经科学，后来师从强化学习大牛Pieter Abbeel，完成计算机科学博士学位。

在他成为OpenAI联创时，博士还未毕业。

OpenAI是他在实习之外工作过的第一家也是唯一一家公司。

他的代表作、最高引论文PPO，也就是ChatGPT核心技术RLHF中选用的强化学习算法。

后来在从GPT-3.5、GPT-4到GPT-4o的一系列工作中都领导了对齐/后训练团队。

这次他自述的离职原因也是与此相关：

希望加深对AI对齐的关注，并开启我职业生涯的新篇章，让我可以重返实际的技术工作。

不过他也给足了OpenAI面子，补充到“不是因为OpenAI缺乏对安全对齐工作的支持而离开”，只是出于个人希望集中精力。

在ICML2023的演讲中，舒曼自述过个人接下来关注的研究方向之一：如何避免过度优化。

ChatGPT 中的一些令人讨厌的行为（例如过度道歉）是过度优化的结果。
RLHF很容易对狭窄的指标进行过度优化，例如模型可能学会了能获得奖励的捷径，但没有真正理解。
适当的对话任务训练需要推理、换位思考和知识，研究人员必须精心设计训练过程、奖励功能和数据集
奖励信号必须评估整个对话的质量，而不仅仅是个别反馈。

在今年五月份与播客主持人Dwarkesh Patel访谈时，舒曼也表示，算力应该更多从预训练向后训练转移。

OpenAI人才持续流失

由于在AI安全方面理念和奥特曼不合，OpenAI的人才发生了大量流失。

今年5月，超级对齐团队的两名负责人——首席科学家Ilya Sutskever和RLHF发明者之一Jan Leike，在同一天内相继离开OpenAI。

彼时离超级对齐团队的成立，过去还不到一年。

Jan Leike离开后更是连发十几条推文，对着OpenAI疯狂炮轰，控诉其没有兑现20%算力的承诺，并且对安全的重视程度远不及产品。

后来，Jan Leike选择加入了OpenAI的竞争对手Anthropic，继续进行超级对齐的研究。

在GPT-4项目上与Jan Leike共同领导对齐工作的Ryan Lowe，也已于3月底离开OpenAI。

还有超级对齐成员之一William Saunders，以及参与过GPT-4对抗性测试的Daniel Kokotajlo，也都从OpenAI离职。

更不必说隔壁Anthropic的创始人Dario Amodei和Daniela Amodei兄妹，也是OpenAI出身。

哥哥Dario离开前是OpenAI的研究副总裁，妹妹Daniela则是安全与策略部门副总监，走的时候还把GPT-3首席工程师Tom Brown等十几名员工一起带到了Anthropic。

导致他们选择出走创业的原因之一，就是OpenAI在安全问题尚未解决的情况下就直接发布了GPT-3，引发了他们的不满。

对安全的重视，加上创始人的背景，也让Anthropic成为了包括Jan Leike和这次离职的舒曼在内的OpenAI员工的主要去处之一。

OpenAI这边最近在安全工作上也有所动作——

7月末，OpenAI把安全部门高级主管Aleksander Madry调离了安全岗位，并给他重新分配了“AI推理”的工作。

但OpenAI告诉媒体，Madry到了新职位上之后，仍将致力于人工智能安全工作。

CEO奥特曼也是强调，OpenAI一直都很重视安全工作，并坚持了“给整个安全团队至少20%算力”的承诺。

但眼尖的网友很快发现，奥特曼玩了一波偷换概念，原来承诺的的是给超级对齐团队20%算力，被偷偷改成了全部安全团队。

所以，在奥特曼的推文之后，网友也是毫不留情地把这一背景信息添加了上去，并附上了当时OpenAI的官方链接。

emm……互联网还是有记忆的。

One More Thing

在内部大量人才流失的同时，OpenAI的“老仇人”马斯克这边也有新的动作——

马斯克刚刚再一次把OpenAI告上了法庭，一同被告的还有奥特曼以及总裁Brockman。

这次起诉的理由是，马斯克认为自己参与创立OpenAI之时受到了奥特曼和Brockman的“欺骗和敲诈勒索”。

马斯克称，自己当初参与并投资OpenAI就是因为相信了奥特曼的话，当时奥特曼承诺OpenAI是一个安全、开放的非营利组织。

但后来OpenAI成为了营利性组织，还把一部分股份卖给了微软，这让马斯克感到十分不满，认为自己遭到了背叛，痛斥奥特曼“背信弃义”。

马斯克的律师Marc Toberoff表示，此次诉讼和之前撤回的那起有很大差别，要求被告“对故意向马斯克和公众做出虚假陈述的行为负责”，并寻求“大规模追回他们的不义之财”。

同时，起诉书还要求撤销OpenAI对微软授予的许可。

参考链接：
[1]https://www.bloomberg.com/news/articles/2024-08-06/openai-co-founder-john-schulman-departs-for-ai-rival-anthropic[2]https://www.cnbc.com/2024/07/23/openai-removes-ai-safety-executive-aleksander-madry-from-role.html[3]https://x.com/sama/status/1818867964369928387[4]https://www.documentcloud.org/documents/25031741-elon-vs-openai-again[5]https://www.nytimes.com/2024/08/05/technology/elon-musk-openai-lawsuit.html

#Scaling Laws for Precision

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

研究表明，你训练的 token 越多，你需要的精度就越高。

最近几天，AI 社区都在讨论同一篇论文。

UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。

CMU 教授 Tim Dettmers 则直接说：它是很长一段时间以来最重要的一篇论文。OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 也转发了他的帖子。

Tim Dettmers 表示，可以说，人工智能的大部分进步都来自计算能力的提升，而（在最近）这主要依赖于低精度路线的加速（32- > 16 - > 8 位）。现在看来，这一趋势即将结束。再加上摩尔定律的物理限制，大模型的大规模扩展可以说要到头了。

例如，英伟达最新的 AI 计算卡 Blackwell 将拥有出色的 8 位能力，并在硬件层面实现逐块量化。这将使 8 位训练变得像从 FP16 切换到 BF16 一样简单。然而，正如我们从新论文中看到的那样，对于很多大模型的训练来说，8 位是不够的。

与其他模型相比，Llama 405B 没有得到太多应用的主要原因是它体量太大了，运行 405B 模型进行推理非常麻烦。但论文表明，训练较小的模型（例如 70B）时，你也无法在低精度下有效地训练这些模型。见下图 8B（圆形） 70B（三角形） 405B（星型）：

可见对于 20B Token 数据的训练，训练 8B 模型在 16 位中效率更高。对于 70B 模型来说 8 位仍然有效，但效率越来越低。

Tim Dettmers 感叹道：从我自己的经验（大量失败的研究）来看，效率是无法欺骗的。如果量化失败，那么稀疏化也会失败，其他效率机制也会失败。如果这是真的，那么我们现在就已经接近最优了。

那以后我们怎么办？眼前似乎只有三条可能的路线：

扩大数据中心规模：未来约 2 年这仍然是可以做到的事；
通过动态扩展：路由到更小的专门模型或大 / 小模型上；
知识的提炼：这条路线与其他技术不同，并且可能具有不同的特性。

对于新硬件来说，我们仍然有 HBM4 内存，这将是一个很好的提升。但 FP4 训练似乎是一个谎言，节点缩小不会再增加多少效率了。

这篇名为《Scaling Laws for Precision》的论文顾名思义，制定了一个和大语言模型使用数据精度有关的扩展定律，涵盖了训练前和训练后。

论文标题：Scaling Laws for Precision
论文链接：https://arxiv.org/abs/2411.04330

据论文一作，来自哈佛大学的 Tanishq Kumar 介绍，他们的研究认为：

由于当代大模型在大量数据上经历了过度训练，因此训练后量化已变得非常困难。因此，如果在训练后量化，最终更多的预训练数据可能会造成副作用；
在预训练期间以不同的精度放置权重、激活或注意力的效果是一致且可预测的，并且拟合扩展定律表明，高精度（BF16）和下一代精度（FP4）的预训练可能都是次优的设计选择。

低精度训练和推理会影响语言模型的质量和成本，但当前的大模型 Scaling Law 并未考虑到这一点。在这项工作中，研究人员为训练和推理设计了「精度感知」扩展定律。

作者提出，以较低的精度进行训练会降低模型的有效参数数量，从而使我们能够预测低精度训练和训练后量化带来的额外损失。对于推理，随着模型在更多数据上进行训练，训练后量化带来的性能下降会加剧，最终导致额外的预训练数据产生负面影响。对于训练，扩展定律使我们能够预测具有不同精度的不同部分的模型的损失，以较低精度训练较大的模型可能是计算最优的。

该工作统一了训练后量化和训练前量化的扩展定律，得出一个单一的函数形式，可以预测不同精度下训练和推理的性能下降。

预训练 scaling law 表明，计算最佳预训练精度通常独立于计算预算。然而，令人惊讶的是，如果模型大小受到限制，这种独立性就不再成立，在这种情况下，计算最佳精度在计算中增长缓慢。

该研究以 3-16 bit 精度预训练了 465 个语言模型，并对每个模型进行了训练后量化。对于具有 N 个参数的语言模型，在 D 个 token 上进行训练，训练精度为 P_train，训练后权重精度为 P_post，该研究最终找到了一个统一的 Scaling Law，其形式如下：

其中，A、B、E、α、β 是正拟合常数，δ_PTQ 是指推理前训练后量化引起的损失退化。

研究简介

该研究首先研究了训练后量化模型权重的常用方法，发现训练时间越长 / 预训练期间「看到」的数据越多，模型在推理时对量化就越敏感，这解释了为什么 Llama-3 可能更难量化。

事实上，这种损失退化大致是预训练期间看到的 token / 参数比值的幂律，因此可以提前预测关键数据大小，超过该数据大小的更多数据的预训练会非常有害。直觉可能是，当你训练更多的数据时，更多的知识被压缩成权重，给定的扰动会对模型性能造成更大的损害。

图 1：主要发现示意图。在 BF16 中将固定大小的模型在各种数据预算上训练，并在最后量化权重。可以发现，由于训练后量化而导致的退化会随着预训练期间看到的 token 数量增加而增加，因此额外的预训练数据可能会造成损害。

经过扩展验证表明，以较低的精度训练较大的模型可以实现计算优化。

然后该研究将注意力转向低精度训练，主要研究量化感知训练（仅权重）和低精度训练。该研究将模型分解为权重、激活和 KV 缓存，找到其中任何一个量化到任意精度时损失的 Scaling Law，并开发一种组合且可解释的函数形式来预测在预训练期间，量化这三者的任意组合对损失的影响。

该研究的 Scaling Law 依赖于「有效参数计数」的概念，研究团队假设当你降低精度，参数也降低一定数量，计数就降低，那么包含 FP4 中所有内容的 10 亿参数模型具有可比较的数量 BF16 中 250m 模型的「有效参数」。

虽然权重可以毫无问题地以低精度进行训练，但激活和 KV 缓存很敏感。

最后，该研究将训练前和训练后的发现统一为可解释的函数形式，可以以任何精度组合预测训练前和训练后的损失。

该研究还发现，低精度的预训练可以以定量可预测的方式「增强」模型的训练后量化，但其程度低于直观预期。

作者表示：「该研究在进行实验时保持受控的架构和设置，但在实践中，通常会故意进行架构调整以适应低精度训练。」这也是这项研究的一点局限性。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

参考内容：

https://twitter.com/Tim_Dettmers/status/1856338240099221674

https://twitter.com/Tanishq97836660/status/1856045600355352753

#WHALE

南大周志华团队做出更强泛化的世界模型

世界模型又出新进展了，来自国内机构。

人类能够在脑海中设想一个想象中的世界，以预测不同的动作可能导致不同的结果。受人类智能这一方面的启发，世界模型被设计用于抽象化现实世界的动态，并提供这种「如果…… 会怎样」的预测。

因此，具身智能体可以与世界模型进行交互，而不是直接与现实世界环境交互，以生成模拟数据，这些数据可以用于各种下游任务，包括反事实预测、离线策略评估、离线强化学习。

世界模型在具身环境的决策中起着至关重要的作用，使得在现实世界中成本高昂的探索成为可能。为了促进有效的决策，世界模型必须具备强大的泛化能力，以支持分布外 (OOD) 区域的想象，并提供可靠的不确定性估计来评估模拟体验的可信度，这两者都对之前的可扩展方法提出了重大挑战。

本文，来自南京大学、南栖仙策等机构的研究者引入了 WHALE（World models with beHavior-conditioning and retrAcing-rollout LEarning），这是一个用于学习可泛化世界模型的框架，由两种可以与任何神经网络架构普遍结合的关键技术组成。

论文地址：https://arxiv.org/pdf/2411.05619
论文标题：WHALE: TOWARDS GENERALIZABLE AND SCALABLE WORLD MODELS FOR EMBODIED DECISION-MAKING

首先，在确定策略分布差异是泛化误差的主要来源的基础上，作者引入了一种行为 - 条件（behavior-conditioning）技术来增强世界模型的泛化能力，该技术建立在策略条件模型学习的概念之上，旨在使模型能够主动适应不同的行为，以减轻分布偏移引起的外推误差。

此外，作者还提出了一种简单而有效的技术，称为 retracing-rollout，以便对模型想象进行有效的不确定性估计。作为一种即插即用的解决方案， retracing-rollout 可以有效地应用于各种实施任务中的末端执行器姿态控制，而无需对训练过程进行任何更改。

为了实现 WHALE 框架，作者提出了 Whale-ST，这是一个基于时空 transformer 的可扩展具身世界模型，旨在为现实世界的视觉控制任务提供忠实的长远想象。

为了证实 Whale-ST 的有效性，作者在模拟的 Meta-World 基准和物理机器人平台上进行了广泛的实验。

在模拟任务上的实验结果表明，Whale-ST 在价值估计准确率和视频生成保真度方面均优于现有的世界模型学习方法。此外，作者还证明了基于 retracing-rollout 技术的 Whale-ST 可以有效捕获模型预测误差并使用想象的经验增强离线策略优化。

作为进一步的举措，作者引入了 Whale-X，这是一个具有 414M 参数的世界模型，该模型在 Open X-Embodiment 数据集中的 970k 个现实世界演示上进行了训练。通过在完全没见过的环境和机器人中的一些演示进行微调，Whale-X 在视觉、动作和任务视角中展示了强大的 OOD 通用性。此外，通过扩大预训练数据集或模型参数，Whale-X 在预训练和微调阶段都表现出了令人印象深刻的可扩展性。

总结来说，这项工作的主要贡献概述如下：

作者引入了 WHALE，这是一个学习可泛化世界模型的框架，由两项关键技术组成：行为 - 条件（behavior-conditioning）和 retracing-rollout，以解决世界模型在决策应用中的两个主要挑战：泛化和不确定性估计；
通过整合 WHALE 的这两种技术，作者提出了 Whale-ST，这是一种可扩展的基于时空 transformer 的世界模型，旨在实现更有效的决策，作者进一步提出了 Whale-X，这是一个在 970K 机器人演示上预训练的 414M 参数世界模型；
最后，作者进行了大量的实验，以证明 Whale-ST 和 Whale-X 在模拟和现实世界任务中的卓越可扩展性和泛化性，突出了它们在增强决策方面的效果。

学习可泛化的世界模型以进行具身决策

世界模型中的序列决策通常需要智能体探索超出训练数据集的分布外 (OOD) 区域。这要求世界模型表现出强大的泛化能力，使其能够做出与现实世界动态密切相关的准确预测。同时，可靠地量化预测不确定性对于稳健的决策至关重要，这可以防止离线策略优化利用错误的模型预测。考虑到这些问题，作者提出了 WHALE，这是一个用于学习可泛化世界模型的框架，具有增强的泛化性和高效的不确定性估计。

用于泛化的行为 - 条件

根据公式（2）的误差分解可知，世界模型的泛化误差主要来源于策略分歧引起的误差积累。

为了解决这个问题，一种可能的解决方案是将行为信息嵌入到世界模型中，使得模型能够主动识别策略的行为模式，并适应由策略引起的分布偏移。

基于行为 - 条件，作者引入了一个学习目标，即从训练轨迹中获取行为嵌入，并整合学习到的嵌入。

作者希望将训练轨迹 τ_H 中的决策模式提取到行为嵌入中，这让人联想到以历史 τ_h 为条件的轨迹似然 ELBO（evidence lower bound）的最大化：

作者建议通过最大化 H 个决策步骤上的 ELBO 并调整类似于 β-VAE 的 KL 约束数量来学习行为嵌入：

这里，KL 项将子轨迹的嵌入预测约束到每个时间步骤 h，鼓励它们近似后验编码。这确保了表示保持策略一致，这意味着由相同策略生成的轨迹表现出相似的行为模式，从而表现出相似的表示。然后使用学习到的先验预测器

从历史 τ_h 中获得行为嵌入 z_h，以便在世界模型学习期间进行行为调节，其中行为嵌入被接受为未来预测的额外协变量：

不确定性估计 Retracing-rollout

世界模型不可避免地会产生不准确和不可靠的样本，先前的研究从理论和实验上都证明，如果无限制地使用模型生成的数据，策略的性能可能会受到严重损害。因此，不确定性估计对于世界模型至关重要。

作者引入了一种新颖的不确定性估计方法，即 retracing-rollout。retracing-rollout 的核心创新在于引入了 retracing-action，它利用了具身控制中动作空间的语义结构，从而能够更准确、更高效地估计基于 Transformer 的世界模型的不确定性。

接下来作者首先介绍了 retracing-action，具体地说，retracing-action 可以等效替代任何给定的动作序列，形式如公式（5），其中

表示动作 a_i 第 j 维的值。

接下来是一个全新的概念：Retracing-rollout。

具体来说：假设给定一个「回溯步骤」k，整个过程开始于从当前时间步 t，回溯到时间步 t-k，将 o_t−k 作为起始帧。

然后，执行一个回溯动作

，从 o_t−k 开始，生成相应的结果 o_k+1。

在实际操作中，为了避免

超出动作空间的范围，回溯动作被分解为 k 步。在每一步中，前六个维度的动作被设置为

，而最后一个维度

保持不变。通过这种方式，模型可以通过多步回溯产生期望的结果。

为了估计某一时间点 (o_t,a_t) 的不确定性，采用多种回溯步骤生成不同的回溯 - 轨迹预测结果。具体来说，要计算不同回溯 - 轨迹输出与不使用回溯的输出之间的「感知损失」。同时，引入动态模型的预测熵，通过将「感知损失」和预测熵相乘，得到最终的不确定性估计结果。

与基于集成的其他方法不同，retracing-rollout 方法不需要在训练阶段进行任何修改，因此相比集成方法，它显著减少了计算成本。

作者在论文中还给出了具体的实例。图 3 展示了 Whale-ST 的整体架构。具体来说，Whale-ST 包含三个主要组件：行为调节模型、视频 tokenizer 和动态模型。这些模块采用了时空 transformer 架构。

这些设计显著简化了计算需求，从相对于序列长度的二次依赖关系简化为线性依赖关系，从而降低了模型训练的内存使用量和计算成本，同时提高了模型推理速度。

实验

该团队在模拟任务和现实世界任务上进行了广泛的实验，主要是为了回答以下问题：

Whale-ST 在模拟任务上与其他基线相比表现如何？行为 - 条件和 retracing-rollout 策略有效吗？
Whale-X 在现实世界任务上的表现如何？Whale-X 能否从互联网规模数据的预训练中受益？
Whale-X 的可扩展性如何？增加模型参数或预训练数据是否能提高在现实世界任务上的表现？

模拟任务中的 Whale-ST

该团队在 Meta-World 基准测试上开展实验。Meta-World 是一个包含多种视觉操作任务的测试集。研究者们构建了一个包含 6 万条轨迹的训练数据集，这些轨迹是从 20 个不同的任务中收集来的。模型学习算法需要使用这些数据从头开始训练。

研究团队将 Whale-ST 与 FitVid、MCVD、DreamerV3、iVideoGPT 进行了对比。评估指标如下：

预测准确性：验证模型是否能够正确估计给定动作序列的值，具体通过值差、回报相关性 (Return Correlation) 和 Regret 进行评估；
视频保真度：研究团队采用 FVD、PSNR、LPIPS 和 SSIM 来衡量视频轨迹生成的质量。

下表展示了预测准确性的结果，其中，Whale-ST 在所有三个指标上都表现出色。在 64 × 64 的分辨率下，Whale-ST 的值差与 DreamerV3 的最高分非常接近。当在更高分辨率 256 × 256 测试时，Whale-ST 的表现进一步提升，取得了最小的值差和最高的回报相关性，反映了 Whale-ST 能更细致地理解动态环境。

表 2 展示了视频保真度的结果，Whale-ST 在所有指标上均优于其他方法，特别是 FVD 具有显著优势。

不确定性估计

针对不确定性，研究团队比较了 retracing-rollout 与两种基准方法：

（1）基于熵的方法：研究团队采用基于 Transformer 的动态模型，它通过计算模型输出的预测熵来量化不确定性

（2）基于集成的方法：研究团队训练了三个独立的动态模型，然后通过比较每个模型生成的图像之间的像素级差异来估计不确定性。

具体来说，他们从模型误差预测和离线强化学习两个角度进行评估。

下表展示了模型误差预测的结果，在所有 5 个任务中，retracing-rollout 均优于其他基线方法。与基于集成的方法相比，retracing-rollout 提升了 500%，与基于熵的方法相比，提高了 50%。

下图展示了离线 MBRL 的结果，retracing-rollout 在 5 个任务中的 3 个任务中收敛得更好、具备更强的稳定性。特别是在关水龙头和滑盘子任务中，retracing-rollout 是唯一能够稳定收敛的方法，而其他方法在训练后期出现了不同程度的性能下降。

Whale-X 在真实世界中的表现

为了评估 Whale-X 在实际物理环境中的泛化能力，研究团队在 ARX5 机器人上进行了全面实验。

与预训练数据不同，评估任务调整了摄像机角度和背景等，增加了对世界模型的挑战。他们收集了每个任务 60 条轨迹的数据集用于微调，任务包括开箱、推盘、投球和移动瓶子，还设计了多个模型从未接触过的任务来测试模型的视觉、运动和任务泛化能力。

如图 5 所示，Whale-X 在真实世界中展现出了明显的优势。

具体来说：

1. 与没有行为 - 条件的模型相比，Whale-X 的一致性提高了 63%，表明该机制显著提升了 OOD 泛化能力；

2. 在 97 万个样本上进行预训练的 Whale-X，比从零开始训练的模型具有更高的一致性，凸显了大规模互联网数据预训练的优势；

3. 增加模型参数能够提升世界模型的泛化能力。Whale-X-base（203M）动态模型在三个未见任务中的一致性率是 77M 版本的三倍。

此外，视频生成质量与一致性的结果一致，如表 4 所示。通过行为 - 条件策略、大规模预训练数据集和扩展模型参数，三种策略结合，显著提高了模型的 OOD 泛化能力，尤其是在生成高质量视频方面。

扩展性

固定视频 token 和行为 - 条件这两个部分不变，仅调整模型的参数量和预训练数据集的大小，Whale-X 的拓展性如何呢？

研究团队在预训练阶段训练了四个动态模型，参数数量从 39M 到 456M 不等，结果如图 7 的前两幅图所示。

这些结果表明，Whale-X 展现出强大的扩展性：无论是增加预训练数据还是增加模型参数，都会降低训练 loss。

除此之外，研究团队还验证了更大的模型在微调阶段是否能够展现更好的性能。

为此，他们微调了一系列动态模型，结果如图 7 最左侧所示。不难发现，经过微调后，更大的模型在测试数据上表现出更低的 loss，进一步突显了 Whale-X 在真实任务中出色的扩展性。

可视化

定性评估

图 1 展示了在 Meta-World、Open X-Embodiment 和研究团队设计的真实任务上的定性评估结果。

结果表明，Whale-ST 和 Whale-X 能够生成高保真度的视频轨迹，尤其是在长时间跨度的轨迹生成过程中，保持了视频的质量和一致性。

可控生成

图 8 展示了 Whale-X 在控制性和泛化性方面的强大能力。给定一个未见过的动作序列，Whale-X 能够生成与人类理解相符的视频，学习动作与机器人手臂移动之间的因果联系。

行为条件可视化

通过 t-SNE 可视化，研究表明 Whale-X 成功地学习到行为嵌入，能够区分不同策略之间的差异。例如，对于同一任务，不同的策略会有不同的行为表示，而噪声策略的嵌入则介于专家策略和随机策略之间，体现了模型在策略建模上的合理性。此外，专家策略在不同任务中的嵌入也能被区分，而随机策略则无法区分，表明模型更擅长表示和区分策略，而不是任务本身。

更多研究细节，请参考原文。

参考链接：https://arxiv.org/abs/2411.05619

#scene-language

一句话爆改三维场景！斯坦福吴佳俊团队新作：场景语言，智能补全文本到3D的场景理解

从文字生成三维世界的场景有多难？

试想一下，如果我们要 “生成复活节岛的摩艾石像”，AI 怎么才能理解我们的需求，然后生成一个精美的三维场景？

斯坦福的研究团队提出了一个创新性解决方案：就像人类使用自然语言（natural language）进行交流，三维场景的构建需要场景语言（Scene Language）。

项目主页：https://ai.stanford.edu/~yzzhang/projects/scene-language/
文章地址：https://arxiv.org/abs/2410.16770

这个新语言不仅能让 AI 理解我们的需求，更让它能够细致地将人类的描述转化为三维世界的场景。同时，它还具备编辑功能，一句简单指令就能改变场景中的元素！物体的位置、风格，现在都可以随意调整。

智能的场景理解

再比如，输入 “初始状态的国际象棋盘”，模型可以自动识别并生成如下特征：

64 个黑白相间的格子
按规则排列的 32 个棋子
每个棋子的独特造型

最终生成的 3D 场景完美还原了这些细节。

这个方法支持多种渲染方式，能适应不同的应用场景：

更具吸引力的是其编辑能力：只需一句指令，就能调整场景中的元素：

支持图片输入

动态生成

不仅限于静态，Scene Language 还能生成动态场景，让 3D 世界生动起来。

技术亮点

Scene Language 的核心在于三大组件的融合：

1. 程序语言（program)：用于精确描述场景结构，包括物体间的重复、层次关系；

2. 自然语言（word）：定义场景中的物体类别，提供语义层面的信息；

3. 神经网络表征（embedding）：捕捉物体的内在视觉细节。

这种组合就像给 AI 配备了一套完整的 “建筑工具”，既能整体规划，又能雕琢细节。

对比传统方法的优势

与现有技术相比，Scene Language 展现出显著优势：

用户偏好测试中获得 85.65% 的偏好，相比现有方法提高了近 7 倍；
在物体数量控制方面，测试集中的准确率达到 100%，而现有方法只有 11%。

这一研究展示了 AI 理解和创造 3D 世界的全新可能性，期待它在游戏开发、建筑设计等领域引领新一轮的创新！

作者简介

该篇论文主要作者来自斯坦福大学吴佳俊团队。

论文一作张蕴之，斯坦福大学博士生。主要研究为视觉表征及生成。

吴佳俊，现任斯坦福大学助理教授。在麻省理工学院完成博士学位，本科毕业于清华大学姚班。

#自动驾驶界秋名山车神

CoRL杰出论文让自驾车学会漂移，机器人整出新活

今年的机器人顶会 CoRL 杰出论文，竟然帮自动驾驶车稳稳地完成了漂移。

先来个甜甜圈漂移热个身：

，时长00:43

然后，上点难度，来个「8 字」：

，时长00:52

最后来个蛇形绕桩（Slalom，这次没有实体的桩）。可以听见，在绕到一半的时候，工作人员忍不住欢呼了一下。

，时长00:41

即使地面湿滑，自动驾驶汽车的发挥也不受影响。

，时长00:49

这些动作都是由一个安装了自动驾驶系统的雷克萨斯 LC 500 汽车来完成的，同样一套系统安装到丰田 Supra 上也可以安全运行。这得益于研究者们在 CoRL 一篇杰出论文中提出的方法，该方法可以提高自动驾驶在极限操控（如漂移）条件下的安全性和可靠性。

另外一篇获奖论文则有关机器人导航。作者借助强化学习对导航智能体进行了端到端大规模训练，结果可以很好地泛化到现实世界。其中，论文一作 Kuo-Hao Zeng 是一位华人学者，目前就职于艾伦人工智能研究院。他本科毕业于中山大学，在清华大学拿到了硕士学位，去年在美国华盛顿大学拿到了博士学位。

在颁奖典礼现场，获奖者拿到了一个神秘的大盒子。据透露，里面装的是看起来很美味的零食：

CoRL 是面向机器人学习研究的会议，涵盖机器人学、机器学习和控制等多个主题，包括理论与应用。自 2017 年首次举办以来，CoRL 已经成为了机器人学与机器学习交叉领域的全球顶级学术会议之一。

除了两篇杰出论文，还有四篇论文拿到了今年的杰出论文提名，比如 ALOHA 团队主要成员的新工作 —— 人形机器人 HumanPlus，斯坦福提出的首个开源视觉语言动作大模型 OpenVLA 等。

以下是关于获奖论文和提名论文的详细介绍。

杰出论文奖获奖论文

论文一：One Model to Drift Them All

作者：Franck Djeumou, Thomas Jonathan Lew, Nan Ding, Michael Thompson, Makoto Suminaka, Marcus Greiff, John Subosits
机构：丰田研究院、美国伦斯勒理工学院
论文链接：https://openreview.net/pdf?id=0gDbaEtVrd

让自动驾驶汽车在极限操控状态下 —— 也就是轮胎抓地力达到最大时 —— 安全运行是一个非常重要的问题，尤其是在紧急避障或恶劣天气等情况下。不过，要实现这样的能力并不容易，因为这项任务本身变化多端，而且对道路、车辆特性以及它们之间的相互作用的不确定性非常敏感。

为了克服这些难题，作者提出了一个新的方案：利用一个包含多种车辆在多样环境下行驶轨迹的未标记数据集，来训练一个高性能车辆控制的条件扩散模型。他们设计的这个扩散模型能够通过一个基于物理信息的数据驱动动态模型的参数多模态分布，来捕捉复杂数据集中的轨迹分布。

通过将在线测量数据作为生成过程的条件，作者将这个扩散模型融入到实时模型预测控制框架中，用于极限驾驶。

在丰田 Supra 和雷克萨斯 LC 500 上进行的大量实验表明，在不同路况下使用不同轮胎时，单一扩散模型可使两辆车实现可靠的自动漂移。该模型与特定任务专家模型的性能相匹配，同时在对未知条件的泛化方面优于专家模型，为在极限操控条件下采用通用、可靠的自动驾驶方法铺平了道路。

左：条件扩散模型在两辆车上执行漂移轨迹的示例。右：控制器结构概述和在线模型参数生成过程。

论文二：PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators

作者：Kuo-Hao Zeng, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Zichen Zhang, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs
机构：艾伦人工智能研究所 PRIOR（Perceptual Reasoning and Interaction Research）团队
项目链接：https://poliformer.allen.ai/
论文链接：https://arxiv.org/pdf/2406.20083

PoliFormer 是 Policy Transformer 的缩写。这是一种纯 RGB 室内导航智能体，它通过强化学习进行端到端大规模训练。尽管纯粹是在模拟中训练，但训练结果无需调整即可泛化到现实世界。

PoliFormer 使用基础视觉 transformer 编码器和因果 transformer 解码器来实现长期记忆和推理。它在不同的环境中进行了数亿次交互训练，利用并行化、多机扩展实现了高吞吐量的高效训练。

PoliFormer 是一个优秀的导航器，在 LoCoBot 和 Stretch RE-1 机器人这两种不同的具身智能方案和四项导航基准测试中均取得了 SOTA 成绩。它突破了以往工作的瓶颈，在 CHORES-S 基准上实现了前所未有的 85.5% 的目标导航成功率，绝对值提高了 28.5%。

PoliFormer 还可轻松扩展到各种下游应用，如目标跟踪、多目标导航和开放词汇导航，无需进行微调。

以下是一些利用 PoliFormer 进行导航的机器人示例：

1、穿过布满障碍的长走廊找到苹果（LoCoBot）：

2、找到一本名为「人类」的书（Stretch RE-1）

3、一次寻找多个物品 —— 沙发、书本、厕所和室内植物（Stretch RE-1）

杰出论文提名

论文 1：Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning

机构：斯坦福大学、UC 伯克利
作者：Joey Hejna, Chethan Anand Bhateja, Yichen Jiang, Karl Pertsch, Dorsa Sadigh
论文地址：https://arxiv.org/abs/2408.14037

为了训练机器人基础模型，研究领域正在构建越来越多的模仿学习（imitation learning）数据集。然而，数据选择在视觉和自然语言处理中已经被认为是至关重要的，但在机器人技术领域，模型实际上应该使用哪些数据进行训练还是个悬而未决的问题。

基于此，该研究探索了如何权衡机器人数据集的不同子集或「域」以进行机器人基础模型预训练。

具体来说，该研究使用分布式鲁棒优化（DRO）来最大化所有可能的下游域最坏情况性能，提出方法 Re-Mix。Re-Mix 解决了将 DRO 应用于机器人数据集时出现的广泛挑战。Re-Mix 采用提前终止训练（Early Stopping）、动作归一化和离散化来解决这些问题。

通过在最大的开源机器人操作数据集 Open X-Embodiment 上进行广泛的实验，该研究证明数据管理可以对下游性能产生巨大的影响。

论文 2:Equivariant Diffusion Policy

作者：Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt
机构：东北大学、波士顿动力
论文地址：https://arxiv.org/abs/2407.01812

最近一些研究表明：扩散模型是学习行为克隆中演示数据所产生的多模态分布的有效方法。然而，这种方法的一个缺点是需要学习去噪函数，这比学习显式策略要复杂得多。

基于此，该研究提出了一种新型扩散策略学习方法 —— 等变扩散策略（Equivariant Diffusion Policy），利用域对称性来获得更好的样本效率和去噪函数的泛化能力。

该研究从理论上分析了全 6-DoF 控制的 SO (2) 对称性，并描述了扩散模型何时是 SO (2) 等变的。该研究进一步在 MimicGen 中的一组 12 个模拟任务上对该方法进行了实验评估，结果表明该方法的成功率平均比基线扩散策略高 21.9%。

该研究还在现实系统上评估了该方法，结果表明可以使用相对较少的训练样本来学习有效的策略。

论文 3:HumanPlus: Humanoid Shadowing and Imitation from Humans

作者：Zipeng Fu, Qingqing Zhao, Qi Wu, Gordon Wetzstein, Chelsea Finn
机构：斯坦福大学
论文地址：https://arxiv.org/pdf/2406.10454

说起斯坦福开源的 Mobile ALOHA 全能家务机器人，大家肯定印象深刻，ALOHA 做起家务活来那是有模有样：滑蛋虾仁、蚝油生菜、干贝烧鸡，一会儿功夫速成大餐：

这款人形 HumanPlus，也是 ALOHA 团队主要成员的工作。HumanPlus 和 ALOHA 都在探索模仿学习对机器人带来怎样的增益。HumanPlus 更关注设计一套数据处理流程，让人形机器人可以自主学习技能。

该研究首先基于 40 小时的人体运动数据集，通过强化学习在模拟环境中训练低级策略。然后将这一策略迁移到现实世界中，使人形机器人仅使用 RGB 相机即可实时跟踪人体和手部运动，形成 Shadowing 系统。

人类操作员可以通过 Shadowing 系统远程控制人形机器人，收集其全身运动数据，以便在现实环境中学习各种任务。基于这些数据，研究人员采用有监督的行为克隆方法，再对机器人进行训练。

只需 40 次演示，搭载 Shadowing 系统的机器人就可以可以自主完成诸如穿鞋站立和行走，从仓库货架上卸载物品，叠衣服，重新排列物品，打字以及与另一个机器人打招呼等任务，成功率为 60-100%。

更多详情，请参看报道：《从 ALOHA 迈向 Humanplus，斯坦福开源人形机器人，「高配版人类」上线》

论文 4：OpenVLA: An Open-Source Vision-Language-Action Model

机构：斯坦福大学、UC 伯克利、丰田研究院、Google Deepmind 等
作者：Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P Foster, Pannag R Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
论文地址：https://arxiv.org/abs/2406.09246
项目地址：https://github.com/openvla/openvla

机器人技术视觉语言动作（VLA）的广泛采用一直面临挑战，因为：