51c大模型~合集5

whaosoft-143

已于 2025-03-17 17:39:20 修改

阅读量1.2k

点赞数 22

分类专栏：人工智能文章标签：人工智能

于 2024-10-27 12:25:19 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143266994

版权

人工智能专栏收录该内容

324 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/11509109

#GPT-4o mini测评

懂得不多，但答得极快

GPT-4o mini主打一个字「快」。

昨晚，OpenAI 突然上线新模型 GPT-4o mini，声称要全面取代 GPT-3.5 Turbo。

在性能方面，GPT-4o mini 在 MMLU 上的得分为 82%，在 LMSYS 排行榜的聊天方面分数优于 GPT-4。

在价格方面，GPT-4o mini 比之前的 SOTA 模型便宜一个数量级，商用价格是每百万输入 token 15 美分，每百万输出 token 60 美分，比 GPT-3.5 Turbo 便宜 60% 以上。

OpenAI 表示，ChatGPT 的免费版、Plus 版和 Team 用户将能够从周四开始访问 GPT-4o mini（其知识截至 2023 年 10 月），以代替 GPT-3.5 Turbo，企业用户可以从下周开始访问。

目前，GPT-4o mini 在 WildBench 测试上排名第九，优于谷歌的 Gemini-flash 以及 Anthropic 的 Claude 3 Haiku。

在今天的凌晨的文章中，我们已经介绍了 GPT-4o mini 的一些基本情况（参见《GPT-4o Mini 深夜突发：即刻免费上线，API 降价 60%》）。在这篇文章中，我们将补充介绍模型的实际使用体验以及这份工作背后的研究者。

GPT-4o mini 一手评测

在 GPT-4o mini 开放测试的第一时间，我们问了它一个最近比较热门的话题，9.11 和 9.9 哪个大，很遗憾，GPT-4o mini 依然没有答对，还一本正经地回答 0.11>0.9。

接着我们在 Poe（Quora 开发的应用程序，已经集成了 GPT-4o mini）中输入人物传记电影《Eno》的设计封面，让两个模型解读，结果 mini 翻车了。GPT-4o mini 直接表示「自己认不出照片上的人。」

与之相对的，GPT-4o 的回答就比较准确。「这张图片看起来像是一幅拼贴画，由一张照片的多个碎片组成，照片中是一位留着白胡子、身穿亮粉色衬衫的老人。这幅图由同一张照片的不同部分创造性地排列而成，产生了马赛克或拼图般的效果。照片中的男子表情若有所思，手抚摸着脸。」

接着我们又测试了另一个问题：在客厅的桌子上放着一个杯子，杯子里有一个戒指。这个杯子被移到了书房的桌子上，然后移到了卧室的床上。在那里，杯子被翻倒了一次，然后又恢复了原样。之后，杯子被放回了客厅的桌子上。那么，现在戒指在哪里呢？如果我们分开问，答案不一样，GPT-4o 似乎更聪明点。

但是，如果我们一起发问，它们的答案又会变得雷同：

GPT-4o mini 回答数学题的表现如何呢？用丘成桐少年班 2024 年选拔试题测试了一下它解决数学问题的能力。

虽然 GPT-4o mini 对问题的解读都比较清晰，但在分析过程中出现「胡言乱语」的逻辑错误，像极了上数学课根本听不懂但硬答的学生。

不过也不必着急，毕竟 GPT-4o 的回答更不理想，它甚至没有看懂数字表示的是正方形的边长。

在文字的总结能力上，GPT-4o mini 与 GPT-4o 的能力不相上下。都能将重点信息进行抓取，但 GPT-4o 的回答更显条理。

不过主打「Faster for everyday tasks」的 GPT-4o mini，响应速度确实对得起「Faster」之称。和它对话，几乎无需等待，输出速度也是快得离谱。

日本网友用 GPT-4o mini 搭建了一款 AI 聊天机器人，响应速度依然快得惊人。

还有网友将 GPT-4o 和 GPT-4o mini 输出速度进行了对比，GPT-4o mini 明显更快：

从大家体验效果上来看，GPT-4o mini 主打一个字「快」，但实际使用体验可能还是差了一些。

这个问题目前没有官方信息。但从 OpenAI 等 AI 巨头纷纷发布小模型的动作来看，小模型正在成为一个新战场。

OpenAI 创始成员 Karpathy 对此表示，「LLM 模型大小竞争正在加剧…… 但方向是相反的」！

我敢打赌，我们会看到非常小的模型，它们思考得非常好，而且非常可靠。甚至 GPT-2 参数的设置很可能会让大多数人认为 GPT-2 很智能。

当前模型如此之大的原因在于我们在训练过程中表现得很浪费 —— 我们要求 LLM 记住互联网上的整个内容，令人惊讶的是，它们确实可以做到，例如背诵常用数字的 SHA 哈希值，或者回忆起非常深奥的事实。（实际上，LLM 非常擅长记忆，比人类好得多，有时只需要一次更新就可以长时间记住很多细节）。

但想象一下，如果你要接受闭卷考试，考卷要求你根据前几句话背诵互联网上的任意段落。这是当今模型的（预）训练目标。想要做的更好，面临着一个难点，在训练数据中，思考的展示与知识「交织」在一起的。

因此，模型必须先变大，然后才能变小，因为我们需要它们（自动化）的帮助来重构和塑造训练数据，使其成为理想的合成格式。

这是一个改进的阶梯 —— 一个模型帮助生成下一个模型的训练数据，直到我们得到「完美的训练集」。当你用 GPT-2 对其进行训练时，按照今天的标准，它会成为一个非常强大、智能的模型。也许它在 MMLU（大规模多任务语言理解）方面会低一点，因为它不会完美地记住所有的细节。也许它偶尔需要查找一下，以确保信息的准确性。

按照 Karpathy 的说法，以后小模型会变得越来越多，越来越好用。这个领域的竞争会有多激烈？我们拭目以待。

参考链接：https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

#Mistral联合英伟达开源12B小模型

小模型卷起来了：Mistral联合英伟达开源12B小模型，128k上下文

小模型，正在成为 AI 巨头的新战场。

今天凌晨，OpenAI 突然发布了 GPT-4o 的迷你版本 ——GPT-4o mini。这个模型替代了原来的 GPT-3.5，作为免费模型在 ChatGPT 上提供。其 API 价格也非常美丽，每百万输入 token 仅为 15 美分，每百万输出 token 60 美分，比之前的 SOTA 模型便宜一个数量级，比 OpenAI 此前最便宜的 GPT-3.5 Turbo 还要便宜 60% 以上。

OpenAI CEO 山姆・奥特曼对此的形容是：通往智能的成本已经「too cheap to meter」。

与动辄上千亿参数的大模型相比，小模型的优势是显而易见的：它们不仅计算成本更低，训练和部署也更为便捷，可以满足计算资源受限、数据安全级别较高的各类场景。因此，在大笔投入大模型训练之余，像 OpenAI、谷歌等科技巨头也在积极训练好用的小模型。

其实，比 OpenAI 官宣 GPT-4o mini 早几个小时，被誉为「欧洲版 OpenAI」的 Mistral AI 也官宣了一个小模型 ——Mistral NeMo。

这个小模型由 Mistral AI 和英伟达联合打造，参数量为 120 亿（12B），上下文窗口为 128k。

Mistral AI 表示，Mistral NeMo 的推理能力、世界知识和编码准确性在同类产品中都是 SOTA 级别的。由于 Mistral NeMo 依赖于标准架构，因此易于使用，可在任何使用 Mistral 7B 的系统中成为替代品。

下表比较了 Mistral NeMo 基本模型与两个最新的开源预训练模型（Gemma 2 9B 和 Llama 3 8B）的准确性。（严格来讲，这个对比不太公平，毕竟Mistral NeMo 的参数量比另外两个都要大不少）

表 1：Mistral NeMo 基本模型与 Gemma 2 9B 和 Llama 3 8B 的性能比较。

他们在 Apache 2.0 许可证下发布了预训练的基本检查点和指令微调检查点，允许商用。Mistral NeMo 经过量化感知训练，可在不损失任何性能的情况下进行 FP8 推理。

面向大众的多语言模型

该模型专为全球多语言应用而设计。它受过函数调用训练，拥有一个大型上下文窗口，在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面表现尤为突出。

图 1：Mistral NeMo 在多语言基准测试中的表现。

Tekken：更高效的分词器

Mistral NeMo 使用基于 Tiktoken 的新分词器 Tekken，该分词器经过 100 多种语言的训练，能比以前 Mistral 模型中使用的 SentencePiece 分词器更有效地压缩自然语言文本和源代码。在压缩源代码、中文、意大利文、法文、德文、西班牙文和俄文时，它的效率要高出约 30%。在压缩韩文和阿拉伯文时，它的效率是原来的 2 倍和 3 倍。事实证明，与 Llama 3 分词器相比，Tekken 在压缩所有语言中约 85% 的文本方面更胜一筹。

图 2：Tekken 的压缩率。

指令微调

Mistral NeMO 经历了高级微调和对齐阶段。与 Mistral 7B 相比，它在遵循精确指令、推理、处理多轮对话和生成代码方面的能力大大提升。

表 2：Mistral NeMo 指令微调模型的准确率。使用 GPT4o 作为裁判进行的评估。

Mistral NeMo 基础模型和指令微调模型的权重都托管在 HuggingFace 上。

基础模型：https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
指令微调模型：https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407

你现在就可以使用 mistral-inference 试用 Mistral NeMo，并使用 mistral-finetune 对其进行调整。

该模型被还打包在一个容器中，作为 NVIDIA NIM inference 微服务，可从 ai.nvidia.com 获取。

模型变小之后，小公司也能用 AI 赚钱了

在接受 Venturebeat 采访时，英伟达应用深度学习研究副总裁 Bryan Catanzaro 详细阐述了小型模型的优势。他说：「小型模型更容易获取和运行，可以有不同的商业模式，因为人们可以在家中自己的系统上运行它们。事实上，Mistral NeMo 可以在许多人已经拥有的 RTX GPU 上运行。」

这一进展发生在 AI 行业的关键时刻。虽然很多注意力都集中在拥有数千亿参数的庞大模型上，但人们对能够在本地商业硬件上运行的更高效模型越来越感兴趣。这种转变是由对数据隐私的担忧、对更低延迟的需求以及对更具成本效益的 AI 解决方案的渴望所驱动的。

Mistral-NeMo 128k 的上下文窗口是一个突出的功能，允许模型处理和理解比许多竞争对手更多的文本块。Catanzaro 说：「我们认为长上下文能力对许多应用来说可能很重要。如果无需进行微调，那模型会更容易部署。」

这种扩展的上下文窗口对于处理冗长文档、复杂分析或复杂编码任务的企业来说尤其有价值。它有可能消除频繁上下文刷新的需要，从而产生更加连贯一致的输出。

该模型的效率和本地部署能力可能会吸引在联网受限或有严格数据隐私要求的环境中运营的企业。然而，Catanzaro 澄清了该模型的预期使用场景。他说：「我会更多地考虑笔记本电脑和台式电脑，而不是智能手机。」

这一定位表明，虽然 Mistral-NeMo 使 AI 更接近个人业务用户，但它还没有达到移动部署的水平。

行业分析师认为，这次发布可能会显著扰乱 AI 软件市场。Mistral-NeMo 的推出代表了企业 AI 部署的潜在转变。通过提供一种可以在本地硬件上高效运行的模型，英伟达和 Mistral AI 正在解决阻碍许多企业广泛采用 AI 的担忧，如数据隐私、延迟以及与基于云的解决方案相关的高成本。

这一举措可能会使竞争环境更加公平，允许资源有限的小型企业利用以前只有拥有大量 IT 预算的大型公司才能获得的 AI 能力。然而，这一发展的真实影响将取决于模型在实际应用中的表现以及围绕它构建的工具和支持生态系统。

随着各行业的企业继续努力将 AI 整合到他们的运营中，像 Mistral-NeMo 这样的模型代表了向更高效、可部署的 AI 解决方案的转变。这是否会挑战更大、基于云的模型的主导地位还有待观察，但它无疑为 AI 在企业环境中的整合开辟了新的可能性。

参考链接：https://mistral.ai/news/mistral-nemo/

https://venturebeat.com/ai/nvidia-and-mistrals-new-model-mistral-nemo-brings-enterprise-grade-ai-to-desktop-computers/

#GTS LocMoE+

高可扩展性亲和度 MoE 架构，低开销实现主动路由

本论文共同一作为李婧博士，孙志杰和林大超博士，主要成员来自GTS AI计算Lab，主要研究及落地领域包含LLM训推加速、AI训练保障和图计算。

MoE 因其在训推流程中低销高效的特点，近两年在大语言模型领域大放异彩。作为 MoE 的灵魂，专家如何能够发挥出最大的学习潜能，相关的研究与讨论层出不穷。此前，华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ，包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等，引发了广泛关注。

LocMoE 的上述设计有效缓解了部分 MoE 经典结构在训练中的瓶颈，如: 专家路由算法可能无法有效区分 token，以及通信同步效率受限于节点内和节点间的传输带宽差异等。此外，LocMoE 证明并求解出在能够成功处理判别性 token 的前提下专家容量的下限。该下限是根据 token 被动派发给专家的场景下，判别性 token 存在于 token 批次中的概率分布而得出。那么，如果专家同样具备择优 token 的能力，判别性 token 被处理的概率将大幅提高，专家容量下限将能进一步压缩。

在上述设想的基础上，该团队进一步提出了基于低开销主动路由的 MoE 架构，将其命名为 LocMoE+。LocMoE+ 继承了 LocMoE 高判别性专家以及本地性通信优势，进一步改造路由策略，定义 token 与专家之间的亲和度指标，并以此指标入手，更有效率完成 token 分派，进而提升训练效率。

论文链接：https://arxiv.org/pdf/2406.00023

论文简介

该论文的核心思路是通过结合传统被动路由与专家主动路由，提升一定容量下处理判别性 token 的概率，从而降低样本噪声和提升训练效率。该论文从 token 和其被分派的专家之间的关系入手，以一种低计算开销的方案量化和定义了专家与 token 之间的亲和性。据此，该论文实现了全局的自适应路由策略，并基于亲和性得分以专家维度对 token 进行重排和选择。同时，专家容量的下限被证明随着 token 特征分布的稳定而逐渐减小，训练开销得以降低。

该论文率先结合两种路由机制，根据学习性路由策略中 token 倾向于路由至与其夹角更小的专家的发现，打破了主动路由现存方案开销过大影响训练效率的障碍，并与被动路由的本质保持统一。

值得一提的是，作者选用了和 LocMoE 工作完全不同的硬件环境（服务器型号，NPU卡型号，集群组网方案）、训练框架和骨干模型，以证明该系列工作的高扩展性和易于移植性。

自适应双向路由分派机制

背景介绍

传统 MoE 有两种路由分派机制：

（1）hard router，直接把整个 token 特征进行分派；

（2）soft router，把 token 特征的加权组合进行分派。

本文延续考虑（1）因其较低的计算代价。而对于 hard router 场景，又可分为 1）Token Choice Router (TCR)，也就是让每个 token 去选 top-k 专家；2）Expert Choice Router (ECR)，也就是让每个专家去选择 top-C 合适的 token。由于容量限制，每个专家接收的 token 数有上限 C，因此在场景 1）中，会对每个专家接收的 token进行截断：

前人工作指出 MoE 训练分为两阶段：Phase 1. 路由训练，保障路由可以合理分派 token，也就是能把不同领域或者差异大的 token 进行区分和分派给不同专家；Phase 2. 由于 token 路由的作用，每个专家接收到相同领域或者性质相近的 token，每个专家在经历一定训练后就可以习得相关领域和性质的知识。总结来说，MoE 每步训练“成功”的关键在于 token 分派的正确和合理性。

该文贡献

（1）通过 softmax 激活函数推演，专家和 token 之间的余弦相似度能够较为准确地衡量亲和度：

（2）从理论建模角度，分析 TCR 和 ECR 两个常见场景下单次训练成功率：

基于理论，作者指出

在模型训练初期，路由分派 token 能力不足时，每次训练 TCR 要比 ECR 以更高概率成功训练，而且需要较大的专家容量保证选到合适的 token。
在模型训练后期，路由有一定能力正确分派 token 时，每次训练 ECR 要比 TCR 以更高概率成功训练，此时只需要较小的容量就可以选到合适的 token。

该理论也很符合直观，路由没有分派能力时，不如让 token 随机选择专家，而当路由有一定分派能力，也就是专家能选到合适 token 的时候，使用 ECR 更合适。因此作者推荐 TCR 向 ECR 方式的转变，提出了全局级别的自适应路由切换策略，同时基于专家容量的需求估计，在训练后期使用更小的专家容量。

实验结果

该论文的实验在昇腾 910B3 NPU 的自建集群上进行，得益于华为专有的高速缓存一致性协议高性能计算系统（HCCS）在多卡场景下实现的高性能设备间数据通信，以及专为昇腾处理器设计的华为集合通信库（HCCL）在 HCCS 等高速链路上实现高性能分布式训练。实验采用兼容昇腾 NPU 的 PyTorch for Ascend 框架和专为昇腾设备定制的加速库 AscendSpeed 和训练框架 ModelLink，关注 LLM 并行策略和通信遮掩优化。

训练效率

实验结果表明，在不影响模型训练收敛性或有效性的情况下，每个专家至少需要处理的token数量较基线可以减少60% 以上。结合通信优化，在 32 卡、64 卡和 256 卡的集群规模下，训练效率平均提高 5.4% 至 46.6%。

显存占用

LocMoE+ 对于显存占用也存在一定增益，尤其是集群规模较小计算较密集的场景。使用 Ascend Insight 工具对显存监控样本进行分析，可以看出，LocMoE+ 显存使用相比于基线下降了 4.57% 至 16.27%，相比于 LocMoE 下降了 2.86% 至 10.5%。随着集群规模的增大，显存占用的差距随之缩小。

效果评测

开源评测集 C-Eval 和 TeleQnA，以及自主构建的 ICT 领域评测集 GDAD 被用于评估 LocMoE+ 在通用知识和领域知识上的能力。其中，GDAD 共计覆盖了 47 个子项，包含 18060 条样本，考察模型在领域任务，领域能力认证考试和通用能力三大评估体系中的表现。

经过充分 SFT 后，LocMoE+ 相比于基线在领域任务能力的 16 个子能力上平均提升了约 20.1%，相比于 LocMoE 则提升了约3.5%。领域能力认证考试则分别提升了 16% 和 4.8%。在通用能力的 18 个子能力中，LocMoE+ 分别提升约 13.9% 和 4.8%。整体而言，LocMoE+ 在 GDAD、C-Eval 和 TeleQnA 上分别表现出 9.7% 到 14.1% 的效果提升。

#DeePEn

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

本文的主要作者为黄毅翀。黄毅翀是哈尔滨工业大学社会计算与信息检索研究中心博士生，鹏城实验室实习生，师从秦兵教授和冯骁骋教授。研究方向包括大语言模型集成学习、多语言大模型，相关论文发表于自然语言处理顶级会议 ACL、EMNLP、COLING。

随着大语言模型展现出惊人的语言智能，各大 AI 公司纷纷推出自己的大模型。这些大模型通常在不同领域和任务上各有所长，如何将它们集成起来以挖掘其互补潜力，成为了 AI 研究的前沿课题。

近期，哈工大和鹏城实验室的研究人员提出了「Training-free 的异构大模型集成学习框架」DeePEn。

不同于以往方法训练外部模块来筛选、融合多个模型生成的回复，DeePEn 在解码过程中融合多个模型输出的概率分布，联合决定每一步的输出 token。相较而言，该方法不仅能快速应用于任何模型组合，还允许被集成模型访问彼此的内部表示（概率分布），实现更深层次的模型协作。

结果表明， DeePEn 在多个公开数据集上均能取得显著提升，有效扩展大模型性能边界：

目前论文及代码均已公开：

论文标题：Ensemble Learning for Heterogeneous LargeLanguage Models with Deep Parallel Collaboration
论文地址：https://arxiv.org/abs/2404.12715
代码地址：https://github.com/OrangeInSouth/DeePEn

方法介绍

异构大模型集成的核心难点在于如何解决模型间的词表差异问题。为此，DeePEn 基于相对表示理论，构建由多个模型词表之间的共享 token 构成的统一相对表示空间。在解码阶段，DeePEn 将不同大模型输出的概率分布映射到该空间进行融合。全程无需参数训练。

下图中展示了 DeePEn 的方法。给定 N 个模型进行集成，DeePEn 首先构建它们的转换矩阵（即相对表示矩阵），将来自多个异构绝对空间的概率分布映射到统一的相对空间中。在每个解码步骤中，所有模型进行前向计算并输出 N 个概率分布。这些分布被映射到相对空间并进行聚合。最后，聚合结果被转换回某个模型（主模型）的绝对空间，以确定下一个 token。

图 1：方法示意图。其中，相对表示转换矩阵是通过计算词表中每个 token 与模型间共享的锚点 token 之间的词嵌入相似度得到的。

构建相对表示转换

给定 N 个要集成的模型，DeePEn 首先找出所有模型词表的交集，即共享词集

，并从中抽取一个子集 A⊆C 或使用全部共享词作为锚点词集合 A=C。

对于每个模型

，DeePEn 计算词表中每个 token 与锚点 token 的嵌入相似度，得到相对表示矩阵

。最后，为了克服离群词的相对表示退化问题，论文作者对相对表示矩阵进行行归一化，通过对矩阵的每一行进行 softmax 操作，得到归一化相对表示矩阵

相对表示融合

在每个解码步骤中，一旦模型

输出概率分布

，DeePEn 使用归一化相对表示矩阵将

转换为相对表示

并将所有相对表示进行加权平均以获得聚合的相对表示：

其中

是模型

的协作权重。作者尝试了两种确定协作权重值的方法：(1) DeePEn-Avg，对所有模型使用相同的权重；(2) DeePEn-Adapt，根据各个模型的验证集性能成比例地为每个模型设置权重。

相对表示逆映射

为了根据聚合的相对表示决定下一个 token，DeePEn 将其从相对空间转换回主模型（开发集上性能最好的模型）的绝对空间。为了实现这种逆转换，DeePEn 采用了基于搜索的策略，找出相对表示与聚合后的相对表示相同的绝对表示：

其中

表示模型

的绝对空间，

是衡量相对表示之间距离的损失函数（KL 散度）。

DeePEn 利用损失函数

相对于绝对表示

的梯度来指导搜索过程，并迭代地进行搜索。具体来说，DeePEn 将搜索的起始点

初始化为主模型的原始绝对表示，并进行更新：

其中 η 是称为相对集成学习率的超参数，T 是搜索迭代步数。

最后，使用更新后的绝对表示

来确定下一步输出的 token。

实验

表 1：主实验结果。第一部分为单模型的性能，第二部分为分别对每个数据集上的 top-2 模型进行集成学习，第三部分为 top-4 模型集成。

通过实验，论文作者得出了以下结论：

(1) 大模型在不同任务上各有所长。如表 1 所示，不同大模型在不同数据集上的表现存在显著差异。例如 LLaMA2-13B 在知识问答 TriviaQA 和 NQ 数据集上取得了最高的结果，但是其他四个任务上的排名并未进入前四。

(2) 分布融合在各个数据集上取得了一致性的提升。如表 1 所示，DeePEn-Avg 和 DeePEn-Adapt 在所有数据集上均取得了性能提升。在 GSM8K 上，通过与投票法组合使用，最终取得了 + 11.35 的性能提升。

表 2：不同模型数量下的集成学习性能。

(3) 随着集成模型数量的增加，集成性能先增后减。作者在根据模型性能由高到低，依次将模型加入集成，然后观察性能变化。如表 2 所示，不断引入性能较差的模型，集成性能先增后减。

表 3：在多语言机器翻译数据集 Flores 上，大模型与翻译专家模型之间的集成学习。

(4) 集成大模型与专家模型有效提升特定任务性能。作者还在机器翻译任务上对大模型 LLaMA2-13B 和多语言翻译模型 NLLB 进行集成。如表 3 所示，通用大模型与任务特定的专家模型之间的集成，可以显著提升性能。

结论

当前的大模型层出不穷，但很难有一个模型能在所有任务上全面碾压其他模型。因此，如何利用不同模型之间的互补优势，成为一个重要的研究方向。本文介绍的 DeePEn 框架，解决了不同大模型在分布融合时的词表差异问题，且无需任何参数训练。大量实验表明，DeePEn 在不同任务、不同模型数量及不同模型架构的集成学习设置中，均取得了稳定的性能提升。

#STORM

斯坦福开源学术研究神器STORM再进化，AI智能体像人一样进行圆桌讨论

不仅有主持人，还能得到不同AI专家的解答。

今年 4 月，斯坦福大学推出了一款利用大语言模型（LLM）辅助编写类维基百科文章的神器。它就是开源的 STORM，可以在三分钟左右将你输入的主题转换为长篇文章或者研究论文，并能够以 PDF 格式直接下载。

具体来讲，STORM 在 LLM 的协助下，通过检索、多角度提问和模拟专家对话等方式，在整理收集到的信息基础上生成写作大纲，并最终形成一份详细、深入和准确的内容报告。STORM 尤其擅长需要大量研究和引用的写作任务。更难得的是，用户可以直接在 STORM 的网站免费体验。

此后，STORM 不断推出新的功能和服务，在 GitHub 上的 Star 量已经超过了 12k。

GitHub 地址：https://github.com/stanford-oval/storm

就在最近，该团队又推出全新功能 ——Co-STORM。与 STORM 的区别在于，它引入了协作对话机制，并采用轮次管理策略，实现流畅的协作式 AI 学术研究。功能包括如下：

Co-STORM LLM 专家：这种类型的智能体会根据外部知识来源生成答案并能根据对话历史提出后续问题。

主持人（Moderator）：该智能体会根据检索器发现但未在前几轮直接使用的信息生成发人深省的问题。当然，问题生成也可以基于事实。

人类用户：人类用户将主动观察对话以更深入地了解主题，或者通过注入对话来引导讨论焦点，积极参与对话。

Co-STORM 的界面是下面这样的。

体验地址：https://storm.genie.stanford.edu/

我们让 Co-STORM 就战争与和平（war and peace）主题来生成一篇文章，大约需要三分钟。

在生成文章之后，我们可以看到，主持人提出问题，并得到基本信息提供者、文学教授、纪录片导演等不同 AI 智能体的回复，然后开启新一轮次的提问。

此外，Co-STORM 的相关论文已被 EMNLP 2024 主会议收录。

论文地址：https://www.arxiv.org/pdf/2408.15232

运行原理概览

下图为 Co-STORM 框架。整体而言，Co-STORM 模拟用户、观点引导专家和主持人之间的协作对话。

运行原理如下所示：首先维护动态更新的思维导图（3.2），从而帮助用户跟踪和参与对话（3.3）。

在 3.4，提示模拟专家根据对话历史来确定对话意图，并生成基于互联网的问题或答案。

在 3.5，提示模拟主持人利用未使用的信息和思维导图生成新问题，从而自动引导对话。

最后，思维导图可用来生成完整的引用报告以作为总结。

评估结果

自动评估可以实现可扩展测试，并允许对用户行为进行一致的模拟。

研究者将 Co-STORM 与以下基线进行比较：（1）RAG Chatbot，该基线从搜索引擎检索信息并通过一问一答范式与用户交互；（2）STORM + QA，该基线使用 STORM 框架为给定主题生成报告以提供基本信息。

下表 3 展示了报告质量和对话中问答轮次质量的评估结果。问答轮次和最终报告是人类与 Co-STORM 交互时学习的主要来源。STORM + QA 在研究给定主题时考虑了多种观点，与 RAG Chatbot 相比，确实提高了报告质量所有四个评分维度的表现。

同样，Co-STORM 的表现优于 RAG Chatbot，特别是在深度和新颖性方面，它通过模拟具有多个智能体角色的协作对话，类似于圆桌讨论。就对话质量而言，Co-STORM 中的问答轮次在一致性和参与度方面明显优于两个基线。

Co-STORM 的一个关键特性是 LM 智能体可以代表用户提问。如下图 3 所示，在检查提问轮次时，Co-STORM 多智能体设计的优势变得更加明显，只需要一位专家和一位主持人就可以极大地获益。

重要的是，CoSTORM 中的主持人角色会根据有关主题的未使用信息提出问题。这样的角色代表拥有更多已知未知（known unknowns）的人，有效地引导对话，帮助用户在未知未知（unknown unknowns）空间中发现更多信息。

下表 4 为人工评分结果，图 4 为成对比较结果。可以得出结论，CoSTORM 可以帮助用户找到与其目标相关的更广泛、更深层次的信息。

更多技术细节和评估结果请参考原论文。

#深圳一家公司造出世界上最酷机器人，卖2-3万美元

网友：终于不是太奶步伐了。

国内惊现「无头」机器人！

造出这个机器人的，是一家名叫众擎机器人（EngineAI）的深圳公司。

早在今年 7 月底，该公司就推出了首款专业机器人 SA01，售价 5300 美元起，并且全部开源。

开源地址：https://github.com/engineai-robotics/engineai_legged_gym

而短短三个月，该公司又在社交媒体上宣布：隆重推出世界上最酷的人形机器人 ——SE01。

别看它长得不咋地，走路姿势倒是很像人。

独自做蹲起运动也不在话下：

趴在地上做俯卧撑也有模有样：

还能自己拐弯儿：

不少网友惊呼：这步伐也太自然了。

不过，也正由于它太像钢铁侠，让人不禁质疑：这看起来像个电视购物广告。

告别弯腿、跺脚、小碎步的病态步伐

SE01 是一款工业机器人。

它身高 170cm，体重约为 55kg，全身共有 32 个自由度，关节最大扭矩达到 330N・m，行走速度可达 2m/s，能够完成深蹲、俯卧撑、转圈走、抓取、跑跳等复杂动作。

目前，市面上大部分双足机器人都有个毛病，那就是经常出现弯腿、跺脚、小碎步，甚至原地踏步等病态步伐。

SE01 之所以能够迈出六亲不认的步伐，主要因为其核心关节采用了自主研发的高性能谐波力控关节模组，使得膝关节最大扭矩能达到 186N・m，动力关节力控精度可达 0.2N・m。

当然，还有深度强化学习和模仿学习算法，以及端到端神经网络模型的加持。

这个机器人的双臂采用绳驱动柔性力控方案，设计寿命超过 10 年，单臂具备 4 个自由度，其中肩部谐波关节有 3 个自由度，肘部谐波关节有 1 个自由度。

它的仿生灵巧手单手具备 6 个自由度，可以自如应对复杂场景。

机身采用航空级铝合金材质，既保证了外壳的坚固，也使得手臂异常强壮。

此外，SE01 还内置了 NVIDIA 和 Intel 双处理器，配备了三组实感双目摄像头，利用视觉神经网络技术，构建了一套先进的深度立体视觉系统。

6 颗高清摄像头以及 360 度激光雷达，让它能融合感知，实现全景无盲区，而 3D 感知避障导航可以帮它自动选择最优路径。

至于 SE01 的售价，众擎计划控制在 15-20 万人民币，也就是 2-3 万美元，这似乎与特斯拉的擎天柱不谋而合。

前段时间，马斯克在特斯拉的 We Robot 发布会上透露，擎天柱人形机器人的售价预计在 2 万美元至 3 万美元之间。

智能新秀，一路狂飙

黄仁勋在今年的 GTC 大会上指出，「机器人的 ChatGPT 时刻即将到来」。这预示着智能机器人的爆发已经不远了。

在机器人正蓬勃发展的背景下，深圳市众擎机器人科技有限公司凭借通用智能机器人的开发，成为行业关注的焦点。成立仅 10 个月，众擎机器人已完成天使轮及天使 + 轮融资，总额近亿元。

众擎机器人成立于 2023 年 10 月，总部位于深圳，专注于研发通用智能机器人，特别是面向行业场景和科研教育的通用人形机器人。

众擎机器人创始人赵同阳是中国机器人领域的资深创业者。

2016 年，赵同阳创立了 Dogotix（多够机器人），专注于研发高性能仿生四足机器人。公司不仅致力于上层的机器人硬件研发，在底层技术上，从特种电机设计、减速机设计、控制器设计等，也都积累起了全套的知识产权。他们推出了 DG-48A 和 DG-160A 等产品，成功引起了国际关注。

2020 年，Dogotix 被小鹏汽车收购，赵同阳加入小鹏旗下的鹏行智能，担任总经理，主导研发了人形机器人 PX5，该产品在 2024 年英伟达 GTC 大会上亮相。

最右机器人是小鹏公司自研的双足人形机器人 PX5

2023 年，赵同阳离开鹏行智能，创立了众擎机器人，继续深耕人形机器人领域。众擎机器人将机器人技术的发展划分为四大核心板块：本体设计、运动智能、具身算法和通用大脑。这四项技术能力被认为是人形机器人规模化应用的关键，也是公司在全球市场中实现竞争力的基石。

作为创业型公司，众擎在资源和时间上面临多重限制。为此，公司在创立后的前 12 个月内，重点关注本体设计和运动智能领域，确保团队人才的精准配备和产品的极致优化。

同时，众擎提前为「具身算法」版块的开发做出规划，以避免未来发展过程中的潜在陷阱。这种逐步推进的策略不仅为公司打下坚实基础，也为其后续的技术拓展做好了准备。

在他的带领下，众擎机器人于 2024 年 7 月发布了首款双足人形机器人 SA01，售价仅为 3.85 万元人民币，显著降低了人形机器人的市场门槛。

此外，众擎机器人在研发上设立了高标准，计划 2024 年底前推出全系列产品，并在 2025 年实现年产销超千台的目标。该公司还在开发新的家用及工业用机器人系列（如 PM 和 PA 系列），力求在性能与实用性上取得平衡，目标是重塑人形机器人市场格局。

参考链接：

https://www.engineai.com.cn/index.php?m=home&c=View&a=index&aid=113

https://x.com/engineairobot/status/1849479994965360867

#谷歌这款新概念键盘，治好了我多年的老病

谷歌终于把人机交互给玩明白了？

很多整天对着电脑的同学们难免腰酸背疼，有时会发出这样的感叹：我对这键盘受够了！那么问题来了：应该换个机械键盘还是分体式键盘呢？让我们看看全球顶尖的科技大厂，对未来人机交互形态的思考吧：

它是 Gboard 双面键盘，又被称为「无限键盘」，发明者是谷歌日本。它乍看起来像一个甜甜圈。该设备的两面都有按键，可以无限循环地打字。

从一开始，Google 团队就想要打造一款可以在正反两面，能以任意姿势使用，甚至多人合作使用的键盘 —— 你看这理念有多超前。所以我们最终看到的成品是双面的，遵循莫比乌斯带的几何形状。没有明显的内外之分，表面有倾斜度，因此你的手可以以几乎贴合的方式使用它。用户可以 360 度地打字，以任何方式握持设备。从谷歌放出的演示视频来看，你可以从任何能想象到的方向打字。双面键盘上共有 208 个机械按键，这些按键采用正交双面布局 —— 这意味着按键排列成网格状，而不是键盘上通常的交错布局。按键采用 Cherry MX 兼容开关，这是机械键盘的流行标准，因其稳定的触觉反馈、耐用性和独特的咔嗒声而受到粉丝的青睐。谷歌表示，它的重量为「20.8 个甜甜圈」。鉴于 Krispy Kreme 原味釉面甜甜圈（黄金标准）的平均重量为 1.7 盎司，折算一下 Gboard 双面版可能重约 1 公斤。它的半径为 10 厘米，除了用作键盘，你可以拿起它去到任何地方，戴在头上或跨在手臂上。

虽然这只是从 2019 年愚人节开始的一个玩笑项目，旨在推广谷歌输入法（Gboard），但是该键盘并不是什么 AI 生成的效果。它确实有实物是可以工作的。你可以按照已经开源的原理图、3D 可打印的 STL 文件和固件自己构建一个。所有设计都可以在 GitHub 上找到：https://github.com/google/mozc-devices/tree/main/mozc-doublesided

键盘组件

谷歌日本在其 GitHub 中详细介绍了 Gboard 双面键盘的固件和硬件设计，并提到这不是一款受到谷歌官方技术支持的产品。

组件包括如下：

组装好的 A 型电路板：26 块电路板（包括 1 块主板）
组装好的 B 型电路板：26 块电路板（包括 1 块主板）
USB 电路板：1 块电路板
电缆 A；JST ZH 1.5mm 间距 8 针 100mm 正向双头：25 个
电缆 B；JST ZH 1.5mm 间距 7 针 100mm 正向双头：1 个
针座；1x4 针 2.54mm 间距 12+mm 高度，（样品）：52 个针座
3D 打印外壳：26 件
自攻螺钉（M2 10mm）：52 件
按键开关（Cherry MX 或兼容）：208 件
键帽（用于 Cherry MX 开关）：208 件

就是这么简单。

多年潜心研究

这款双面键盘是谷歌日本实验性输入设备历史的一部分。迄今为止，谷歌日本已经创造了四款不切实际的键盘。2019 年 4 月 1 日，谷歌日本推出了 Gboard Bending Spoon。用户通过实际弯曲勺子来选择字符，传感器通过检测压力来确定所需的字母。

到了 2020 年，他们又发布了 Gboard Bar。这款长棒键盘的所有按键都排成一条直线，形成一维的 QWERTY 布局，总长度达到了 1 米 65。谷歌日本开玩笑说：「这款键盘专为简单和协作而设计」，它鼓励两个用户通过同时打字来一起工作。

然后第三年，即 2021 年 9 月 30 日，谷歌日本推出了 Gboard Caps，这是一款看起来像棒球帽的可穿戴键盘。有了它，你可以通过头部动作打字。这可能是所有键盘中最超现实主义和最令人费解的，毕竟实际操作起来脖子会比较费劲。

总之，所有这些键盘设计都在 GitHub 上进行了开源：https://github.com/google/mozc-devices

点开一看，好家伙，Star 量 2200 了。

你还真别说，按照这一年一迭代的速度，说不定到什么时候，会让他们研究出一种划时代的输入方式？

参考链接：

https://www.fastcompany.com/91205003/google-infinity-keyboard

#Unlearned Diffusion Model Benchmark

如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降

本文第一作者为密歇根州立大学计算机系博士生张益萌，为 OPTML 实验室成员，指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine Learning (OPTML) 实验室的研究兴趣涵盖机器学习 / 深度学习、优化、计算机视觉、安全、信号处理和数据科学领域，重点是开发学习算法和理论，以及鲁棒且可解释的人工智能。

扩散模型（Diffusion Models, DMs）已经成为文本到图像生成领域的核心技术之一。凭借其卓越的性能，这些模型可以生成高质量的图像，广泛应用于各类创作场景，如艺术设计、广告生成等。然而，随着扩散模型的日益普及，其带来的安全问题也逐渐显现。模型在处理开放式互联网数据时，可能会在生成过程中输出有害的、不适当的内容，例如裸露、暴力、侵犯版权的图像等，这为其实际应用带来了道德和法律上的挑战。

为应对这些问题，研究者提出了机器遗忘（Machine Unlearning）技术，也称为概念擦除（Concept Erasing）[1-3]。通过这一技术，我们能够有选择性地 “抹去” 扩散模型中的某些不应生成的概念。然而，尽管这一技术能够在非对抗性环境中取得一定效果，现有的概念擦除方法在面对对抗性提示攻击（Adversarial Prompt Attacks）时仍然存在明显的脆弱性。攻击者可以通过对输入提示的微小修改，诱导模型生成本应被擦除的内容，这使得现有的概念擦除技术不够鲁棒。

对抗性提示攻击：机器遗忘中的隐患

对抗性提示攻击的关键在于通过改变文本输入提示的细微细节，诱使模型生成不当的内容。这类攻击可能会通过调整拼写、加入特定符号、或是改变句子结构来规避模型的防护。例如，即便模型已经接受了擦除 “裸露” 相关内容的训练，但通过输入一些巧妙设计的提示词，攻击者依然可能让模型重新生成被擦除的图像。这种攻击的成功率显示了现有擦除技术在对抗恶意输入时的薄弱性。

为了解决这一问题，我们提出了 AdvUnlearn 框架。这是一个将对抗性训练（Adversarial Training, AT）与概念擦除相结合的框架，旨在提升扩散模型在概念擦除任务中的鲁棒性，防止模型在面对对抗性攻击时再次生成被遗忘的内容。

论文题目：Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models

论文地址：https://arxiv.org/abs/2405.15234

代码地址：https://github.com/OPTML-Group/AdvUnlearn

Unlearned Diffusion Model Benchmark: https://huggingface.co/spaces/Intel/UnlearnDiffAtk-Benchmark

AdvUnlearn 框架：对抗性训练与概念擦除的融合

AdvUnlearn 框架的独特之处在于，它系统性地结合了对抗性训练与概念擦除方法，从而提升模型在对抗恶意输入时的安全性和鲁棒性。传统的对抗性训练主要应用于图像分类任务，而 AdvUnlearn 首次将其引入到扩散模型的概念擦除中。通过双层优化策略，AdvUnlearn 能够在增强模型鲁棒性的同时保持其图像生成质量。

双层优化（Bi-level Optimization）：AdvUnlearn 框架的优化分为两个主要层次：

下层优化（Lower-level Optimization）：这一层的任务是生成对抗性提示，即通过对输入文本提示的细微扰动，生成能够诱使模型生成本应被擦除的内容的提示。这个过程的目标是找到这些对抗性提示，使得模型在面对这些提示时生成不合规内容。
上层优化（Upper-level Optimization）：这一层的任务是通过最小化模型对目标概念的响应来强化模型的鲁棒性，同时确保模型生成质量不受影响。我们通过更新模型参数 θ，优化概念擦除的效果，同时保留模型的正常生成能力。

其中

为目标遗忘内容，

为遗忘目标函数，

为生成攻击的目标函数。

保留效用的正则化（Utility-Retaining Regularization）

一个重大挑战是，直接引入对抗性训练可能会导致图像生成质量下降。这是因为模型在面对对抗性提示时，往往会过于专注于抵御不当输入，而忽视了对其他正常内容的生成能力。为此，我们提出了保留效用的正则化方法。

该方法的核心思想是引入一个 “保留集” （

），这是一组与目标概念无关的文本提示。这些提示用于确保模型在训练过程中保留其生成正常内容的能力。例如，在处理 “裸露” 相关概念时，保留集中的提示可能涉及描述风景、动物、建筑等非敏感内容。

保留集的选择尤为重要。我们用 COCO 和 ImageNet 等数据集中的非敏感的物体类别制作成文本提示作为保留集，并通过大模型进行筛选，确保保留集中的提示与待擦除概念无关。这些提示集通过以下正则化项加入优化目标：

其中

为未经过机器遗忘的初始模型参数。通过该机制，AdvUnlearn 框架能够有效解决对抗性训练带来的质量下降问题，确保生成图像的多样性和精度。

最佳优化模块的选择（Modularity Exploriation）: 文本编码器 vs. UNet

扩散模型通常由多个核心模块组成，其中文本编码器（Text Encoder）和 UNet 是两个主要组件。UNet 通常用于处理图像的逐步去噪过程，而文本编码器则将文本提示转换为适合生成图像的表示。

在传统的概念擦除方法中，UNet 被视为模型生成图像的核心，因此大多数现有技术都集中在 UNet 上进行优化。然而，在我们的研究中，我们发现文本编码器在应对对抗性提示攻击时表现更佳。文本编码器在处理输入提示的过程中，负责将文本信息转化为图像生成的关键特征。因此，对文本编码器进行优化，可以更好地控制模型对输入中细微变化的反应，从而提升模型在面对恶意输入时的鲁棒性。

具体来说，我们发现，优化文本编码器能够显著降低对抗性攻击的成功率，同时保留生成高质量图像的能力。此外，经过对抗性训练优化的文本编码器可以作为一个 “即插即用” 的模块，适用于不同类型的扩散模型，从而提高了框架的扩展性和通用性。

实证结果：AdvUnlearn 在多个任务中的表现

为了验证 AdvUnlearn 框架的有效性，我们进行了广泛的实验证明。实验涵盖了多个概念擦除任务，包括裸露概念擦除、艺术风格擦除和对象擦除。UnlearnDiffAtk [4] 作为默认的对抗性提示攻击来检查遗忘模型的鲁棒性。

裸露概念擦除

在处理敏感的 “裸露” 概念时，AdvUnlearn 展现了卓越的性能。相比传统的概念擦除方法，AdvUnlearn 显著降低了对抗性提示攻击的成功率（ASR）。例如，在常见的对抗性提示攻击场景下，ASR 从原始模型的 100% 下降至 21.13%，表明模型能够有效抵御恶意输入。同时，通过引入保留集，模型在生成无关内容（如风景或物体图像）时保持了高质量，FID 仅比标准模型略微上升。

艺术风格擦除

我们还对 “梵高风格” 的擦除进行了实验。在这一任务中，AdvUnlearn 同样表现出了优异的性能。经过对抗性训练后的模型，能够有效抵御对抗性提示攻击，成功率降至 2%。相比之下，未经优化的模型在攻击下几乎无法抵御，生成的图像仍保留了梵高的风格。此外，AdvUnlearn 在这一任务中成功保持了高质量的图像生成能力。

对象概念擦除

在对象擦除任务中，我们对 “教堂” 这一具体对象进行了擦除实验。AdvUnlearn 不仅能够有效抹去生成 “教堂” 图像的能力，还能在对抗性提示攻击下维持图像生成的质量。与其他擦除方法相比，AdvUnlearn 框架能够在保证生成质量的前提下，显著提升鲁棒性，使得模型在面对恶意输入时更加可靠。

总结与展望

AdvUnlearn 框架是首个结合对抗性训练和概念擦除技术的系统性方法，旨在提升扩散模型在概念擦除任务中的鲁棒性。通过对文本编码器进行优化，以及引入保留效用的正则化机制，AdvUnlearn 成功平衡了鲁棒性和模型效用。我们的实验结果显示，AdvUnlearn 能够在多种场景下有效抵御对抗性提示攻击，并保持高质量的图像生成。

随着生成式 AI 的应用范围不断扩大，如何确保模型的安全性和可靠性成为一个关键问题。AdvUnlearn 框架为解决这一问题提供了新的路径，并为未来的生成模型技术提供了重要的参考。如果你想深入了解 AdvUnlearn 框架的技术细节或实验结果，欢迎访问 GitHub 项目页面（https://github.com/OPTML-Group/AdvUnlearn）。.

#从卷文本到卷多模态：国内的大模型公司都在忙什么？

近日，MiniMax 的 AI 视频生成应用「海螺 AI」网页版的访问量暴增，在 9 月增速超 800%。「海螺 AI」、「可灵」等国内 AI 视频生成应用因其生成视频的质量效果较好，在 Reddit 等海外社交平台引起了大量关注。

2024 年，AI 市场关注的重心正逐渐从「模型」到「产品应用」转变。除了常规的 AI 文本对话类应用，多模态的「多」正在成为新的方向。

自 Sora 推出，国内的主要公司陆续跟进，布局视频、音乐、语音等多模态 AI 应用。近期，可灵 AI 海外版、海螺 AI、Vidu 等 AI 视频生成应用表现亮眼；智谱在其 AI 对话应用「智谱清言」中上线「情感语音通话」功能；「AI 六小虎」之一的月之暗面被曝在多模态方面持续投入数月；字节推出 PixelDance、Seaweed 两款视频生成模型......

01. 哪种做法更有可能实现「真」多模态交互？

MLLM 和 LMM 哪个更有可能实现多模态交互？未来的通用智能是否一定是多模态智能？

02. 国内第一梯队的 AI 公司及大厂在多模态产品方面布局如何？

在多模态的竞争中，AI大模型创企、科技大厂、多模态大模型服务厂商推出的产品表现如何？在布局上，有何异同？

03. 多模态应用能否解决国内 AI 创企面临的变现等难题？

为什么产品数据表现亮眼，但距离实现PMF仍有很长的一段路要走？

01 哪种做法更有可能实现「真」多模态交互？

1、目前做多模态大模型主要有两种思路，一种是让 LLM 具备多模态能力的多模态大型语言模型（MLLM），另一种是「原生的」多模态模型，即大型多模态模型（LMM）。

2、让 LLM 具备多模态能力的多模态大型语言模型（MLLM）是目前常用的一种思路。简单来讲，即将大语言模型（LLM）作为大脑来执行多模态任务。[14]

① 通过充分利用现成的预训练单模态基础模型，尤其是 LLM。LLM 负责提供认知功能并提供多种所需能力，比如稳健的语言泛化能力、零样本迁移能力和上下文学习等。

② 中国科学技术大学和腾讯优图实验室在综述论文中，将其定义为「由 LLM 扩展而来的具有接收与推理多模态信息能力的模型」。

③ 由于不同模态的基础模型是单独预训练的，MLLM 的不足在于无法在多模态空间进行深层复杂推理，以及存在不同模态数据对齐的问题。

3、「原生的」多模态模型，即大型多模态模型（LMM）。此前，谷歌推出的 Gemini 模型和 OpenAI 推出的 GPT-4V 模型均属于 LMM。[15]

① LMM 的特点在于模型一开始即在不同模态上进行预训练，利用额外的多模态数据进行微调来提升有效性，AI 能够同时处理和理解文本、图像、声音等多种类型的输入，进而实现多模态交互，充分模拟人与人之间的交互方式。

4、但无论是哪一种思路，目前业内对于多模态大模型的研究都处于早期阶段，面临着模型统一、不同模态的语义对齐、跨模态关联、模态解耦等不同的技术难题。

5、「全模态端到端」是目前的一个前沿方向。今年 5 月，OpenAI 发布 GPT-4o 模型，GPT-4o 在响应的时长、语音的情感起伏、可打断等方面表现优异。（详细内容见 Week20 通讯）

① 据 OpenAI 的官方博客，在 GPT-4o 的开发中，他们首次尝试使用了一个统一的模型来同时处理文本、视觉和音频信息。这意味着所有的输入和输出都由同一个神经网络完成。

② 此前，业内常用的做法则需要依靠三个专门的模型，先按一个模型语音转换为文本，再用GPT 处理文本生成回复，最后用一个模型将文本转为语音的流程运作。

6、同时，对于纯视觉大模型（LVM）能否实现智能、视觉等其他模态能否使 LLM 更加智能，以及未来的通用智能是否一定是多模态智能，业内也存在诸多争议和探讨。

7、此外，由于 OpenAI 未公布 GPT-4o 模型的技术细节、实现方法，因此国内对于多模态大模型的探索仍处于摸索阶段，技术路线尚未收敛。

① 不同模态的数据，是各家做多模态相关应用的核心，如何获取和构建高质量的业务 SFT 数据是关键。

8、谷歌的 CEO Sundar Pichai 曾预测，「2025 年，多模态大型语言模型将使人类互动达到前所未有的水平，人类与世界的互动并非单一模式，而是多种模式结合。」

① Pichai 在其搜索引擎应用 Google 观察到，视觉查询的数量已达到数十亿，用户通过用手机拍照后向 Google 提问。新的交互方式正在逐渐普及。[16]

02 国内第一梯队的 AI 公司及大厂在多模态产品方面布局如何？

自 Sora、Pika 的陆续推出，「大模型+视频」成为 2024 年重要的趋势。而只有技术还不够，从技术到产品级应用，还有一段路要走。多模态竞争，比拼的是产品化的速度。

1、以国内 AI 视频生成赛道为例来看。近期，可灵 AI 海外版、海螺 AI、Vidu 等 AI 视频生成应用表现亮眼。

① 可灵 AI 海外版作为出海应用，从今年 7 月到 9 月，访问量持续增长，月访问量达 1765 万；

② 海螺 AI 自发布后访问量爆发式增长，今年 9 月，海螺 AI 月访问量翻了近 9 倍，相比 8 月增速高达 867.41%；

③ Vidu 在今年 8 月、9 月访问量从零到 552 万迅速增长，其中 70%的访问量来自海外。

2、从以上三款表现亮眼的应用来看，国内在做 AI 视频生成应用的第一梯队主要为三大阵营：MiniMax、智谱等的 AI 大模型创企；以快手、字节等为代表的大厂；以及生数科技、爱诗科技等多模态大模型服务厂商。

3、从 AI 大模型创企阵营来看，大模型「六小虎」里，AI 视频生成应用势头最猛的是 MiniMax。MiniMax 是「六小虎」里为数不多的布局文本、语音、视频多模态的公司......

#纽约时报重磅曝料

特朗普任期内将实现AGI，美国政府早知AGI即将降临！

纽约时报专栏称，美国政府已知道通用人工智能（AGI）正在逼近。前美国AI顾问Ben Buchanan表示AGI对国家安全、经济繁荣等非常重要，但美国并没有为AGI做好准备。

美国政府知道AGI即将到来，而且他们还要率先实现AGI。

就在最近，纽约时报刊登了一篇拜登政府AI顾问本·布坎南所接受的访谈，曝出了不少重磅信息。

比如：美国政府是如何为AGI做准备的？目前仍然存在哪些难题？

沃顿商学院研究AI与经济的Ethan Mollick，忧心重重，认为决策层要考虑AGI实现的可能性。

并非所有美国网友并吃这一套。甚至有教授在课堂上，表示两年后实现AGI，被学生质疑他精神不正常。

拜登政府：AGI真的来了

过去这段时间，纽约时报专栏作家Ezra Klein频频听到这样的观点——

AGI，一种能做任何认知任务上超越人类的AI系统，将在特朗普的任期内到来，而美国人还没有准备好。

就在最近，一位重量级人物——拜登政府的首席AI顾问本·布坎南登上了他的访谈。

左：专栏作家Ezra Klein；右：前白宫顾问Ben Buchanan

这个名为The Ezra Klein Show的访谈，长达1个多小时，干货满满，异常精彩。

多年来，本·布坎南和美国的AI实验室并没有直接联系，然而，他却一直处于美国AI政策制定的核心。

他不会被大型AI实验室买通来宣传AGI，因此，他的观点就显得尤其值得参考。

他看到了什么？是什么让他夜不能寐？特朗普政府究竟需要做些什么，才能为近在咫尺的AGI做好准备？

现在，无论是美国的AI实验室还是政府，都相信AGI在未来两到三年内一定会到来——正好落在特朗普的第二个任期内。

无论是这些机构正发布的产品，还是在工作场所的所见所闻，都让他们坚信这一点。

跟Web3不一样，AGI绝不是空谈，它已经近在咫尺。

可以说，这是人类历史上前所未有的时代。

然而，AGI会带来怎样的剧变？劳动力市场会如何反应？哪个国家会第一个到达AGI？它会怎样影响战争与和平？

美国人还没有做好准备，也不知道该怎样做准备。

更何况，现在美国政府面临着一个新情况：特朗普的幕僚中，马斯克、马克·安德森、大卫·萨克斯和万斯，对AI的态度都十分鲜明、十分激烈。

如今，美国正处于政策制定者的大转型时刻，而以上这些人，很可能恰巧就在AGI影响全世界时掌权。

那么，他们将会做什么？需要做出什么样的决定？

几乎所有业内人士都尽可能大声地宣告：AGI要来了。

普通人为即将到来的事情做好了准备？

AGI早已来了?

「通用人工智能」（AGI）是极其强大的AI系统，典型定义是能够执行人类几乎所有认知任务的AI系统。

它的广度令人瞩目，同时它的深度，即在某些情况下超越人类能力的能力，也不容忽视。

无论如何定义认知任务，AGI能够取代认知要求高的工作，或者认知工作的关键部分。

有一种观点认为，通用人工智能（AGI）一直是企业炒作或猜测的对象。

而Ben Buchanan在白宫时，看到了非常清晰的趋势：AGI并不是炒作，它正在来临。

拜登试图让美国政府和社会为这些AI系统做好准备。

即便很难在心理接受这一点，人类正处在被AI取代的边缘，这一点他们确信不疑。

几个人合作需要几天才能完成的报告，Deep Research在几分钟内就能生成。

同时一些需要大量编码的公司向Klein透露，预计大多数代码将不再由人类编写。

Klein表示：「我真的看不出这对劳动力市场没有影响。」

某种程度上，Ben认为在某些领域AGI已经来了：「未来已经到来——只是分布不均。」

如果没有亲自接触过，可能还意识不到这一点。

但现在还是AGI最差的阶段，未来AGI更好。

所以美国政府以及国家也必须迅速跟进，适应这一变化。

美国誓要先实现AGI

关于AI，几乎所有美国人都普遍认同的一点，也是政策制定中最核心的优先事项，那就是：美国必须在中国之前，实现通用人工智能（AGI）。

这是因为美国人确实相信：如果能够率先实现通用人工智能（AGI）或变革性人工智能（Transformative AI），将极大地提升经济、军事和情报能力。

同时，保持在AI领域的领先地位对于美国国家安全至关重要。

Ben对肯尼迪著名的1962年莱斯大学演讲思索良久：

我们选择在这个十年内登月并完成其他任务，不是因为它们容易，而是因为它们困难。

在肯尼迪谈及太空探索的重要性时，Ben认为表达得更加深刻：

太空科学，就像核科学和所有其他技术一样，本身没有道德观念。它是福是祸，取决于人类。

而只有当美国占据主导地位时，我们才能决定这片新的海洋是成为和平之海，还是恐怖的战争舞台。

1962年9月12日，肯尼迪在莱斯大学发表《我们选择登月》演讲

Ben表示：「这同样适用于AI。美国必须主导AI发展。」

此外，让AGI自动收集并分析息情报，那将极大改变全球的势力平衡。

拜登签署了一项国家安全备忘录，明确指出：卫星情报数据是美国至关重要的战略领域。

白宫官员甚至无法估算美国每天收集了多少卫星图像数据，但可以肯定的是，这个数据量极其庞大。

而且美国已经公开承认，根本没有足够的人手来分析所有这些数据。

因此，AI可以在这一领域发挥重要作用——它可以自动分析全球热点地区、航运线路等相关图像，并筛选出最重要的信息供人类分析师审阅。

有些人可能会说：「这不就是软件应该做的事情吗？」

从某种程度上讲，这确实没错。

但另一方面，软件越强大，分析的自动化程度越高，提取的情报更多。最终，这在战略上占据更有利的位置。

这一变化带来的直接和间接影响同样值得关注。在一个拥有强大AI的世界里，间谍活动的动力会大幅提升。

目前，美国收集的数据已经远超其分析能力，因此每新增的一条数据边际价值并不算高。

但如果AI能够高效处理和分析数据，那么获取更多数据的价值就会显著上升，间谍行为的诱因也会更强。

但同时要约束数据的滥用。至少，美国建立了一套监督机制。

在AI极度强大的时代，这种监督机制的重要性只会进一步上升。

美国为了率先实现AGI，开始实行出口管制政策：识别出关键的「卡脖子」环节——GPU芯片，有效放慢了中国的AI进展，从而为美国创造一定的技术领先窗口。

理想情况下，美国利用领先优势，可以推动AI的安全性和国际协调，而不是一味地盲目竞争。

这其中，甚至可以包括与中国的潜在合作——但前提是不让这种合作加剧AI竞赛的态势。

白宫没准备好

但是美国朝野上下并没有为AGI做好准备。

比如说，在刑事司法中如何使用AI？

在某些情况下，它有优势——比如可以一视同仁地处理案件。

但也存在偏见和歧视等风险，因为AI系统存在缺陷

甚至在某些情况下，因为这些系统无处不在，危害性更大。

Ben认为：「在司法系统中广泛且不受控制地使用AI，存在侵犯权利的根本风险，我们应该对此保持高度警惕。而作为公民，我对此深感忧虑。」

在美国，所有认真研究AI的公司和政府人员基本上都认同：在不远的未来，随着AI变得更加智能，决策速度和质量都会大幅提升，甚至在许多方面会超越人类的传统决策模式。

但问题是，美国正在全速奔向AGI，却并没有真正理解它是什么、意味着什么。

而且，AI安全等问题上，国际合作步履维艰。

但另一方面，中美之间确实建立了AI对话机制。

所以，在像AI这样复杂的领域，多种情况可以同时成立。

DeepSeek闯出了另一条路

DeepSeek之所以让美国感到震惊，主要是因为在计算资源远少于美国的情况下，完成了训练，成本更低，却依然能与美国的顶尖系统竞争。

自2023年11月左右，也就是DeepSeek发布第一个AI模型时，白宫官员就开始关注DeepSeek。

毫无疑问，DeepSeek的工程师们极具才华，在2024年不断进步。

DeepSeek表示，他们的最大瓶颈不是资金或人才，而是无法获取高端芯片。对此，美国白宫官员表示松了一口气。

2024年12月，DeepSeek推出了V3。

当时没有引起太大轰动，但展示了DeepSeek在算法优化和计算效率方面取得了显著提升。

2025年1月，DeepSeek-R1问世。

虽然得到了美国媒体的大量曝光与炒，但没有改变美国政府对形势的基本分析：

DeepSeek仍然受到计算能力的限制。

他们很聪明，他们的算法在进步。但美国公司的算法也在进步。

DeepSeek与谷歌、Anthropic和OpenAI等公司，都在做相同的算法效率工作。

但DeepSeek的确展示了一种去中心化AI发展路径。

而在某种意义上，谷歌、Anthropic和OpenAI「三巨头」束缚了美国的体系和想象力。

DeepSeek证明了美国现行的AI发展范式不是唯一的：不需要巨量计算资源，不需巨型公司，在更少的能源、更少的芯片下，也能实现顶尖AI模型。

这两种模式可能都行之有效。

首先，至少在可预见的未来，总会有一个顶尖模型。而这需要密集的算力和能源。

这些公司提升效率的动力很强，希望榨取每一滴算力。而且还在继续不断发展。

除此之外，还有一个滞后于前沿的较慢的技术扩散过程。

在扩散过程中，算法变得更加高效，所需的计算机芯片更少，能源消耗也更低。

美国需要在这两个竞争中都取得胜利。

AI竞争力、安全与开源

拜登政府总体上也非常关注AI安全。

Marc Andreessen是一位著名的风险投资家，也是特朗普的高级顾问，讲述了他与拜登政府就AI的对话，以及这些对话如何使他走向了另一个极端。

Ben和我在2024年5月去了华盛顿。我们没能见到拜登，因为当时没有人能见到拜登。但我们见到了高级幕僚。我们与白宫核心圈子的高层人士会面。

我们基本上表达了对AI的担忧。

他们的回应是：是的，我们将在拜登政府的第二任期内实施的国家AI议程是：我们将确保AI只能由两三家大公司来运作。我们将直接监管和控制这些公司。

不会有初创公司。你们认为可以创办公司、编写代码并将代码发布到互联网上的日子已经结束了。这种情况不会再发生了。

但Ben表示美国在竞争力上优势明显，市场充满活力。

特朗普总统刚刚废除的AI行政命令中有一个相当长的部分是关于竞争力的。

《芯片与科学法案》中也有许多关于竞争的内容。

但Scaling law等，迫使事情向大公司倾斜。

在许多方面，美国政府是在反对这种趋势。

在AI安全领域，存在另一种说法：当最强大的实验室的前沿模型变得足够强大时，需要对其进行监管。

为了做到这一点，需要控制这些模型：不能让模型以及其他相关的东西四处流传，以至于每个人都可以在PC上运行它。

这涉及到更高层次的紧张关系，即如何监管这种极其强大且快速变化的技术，一方面要确保其安全，另一方面又不过度减缓其发展速度，或使小型公司在使用越来越强大的系统时难以遵守这些新规定。

在行政命令中，美国实际上试图解决这个问题，但在2023年10月签署该命令时，还没有答案。

开放权重系统的关键好处是，它更容易作为未来系统的基础进行创新，因为可以访问原始模型。

但同时可能带来风险：任何内置在该系统中的安全措施——比如拒绝用户开发生物武器的要求——都很容易被移除。

经过广泛的征求意见和反馈后，白宫官员在2024年7月左右发布报告，得出的结论基本上是：目前没有证据表明需要限制开放权重生态系统。

但随着技术的进步，应该继续监控这一点。

特朗普新政

围绕如何为AI做准备，存在着不同的文化——AI安全派和AI加速派。

在巴黎AI行动峰会上，副总统万斯明显属于AI加速派，表示为了AI安全而对其监管，是在扼杀创新。

也就是说，他认为安全和机会之间存在根本性的矛盾。

只要看看技术发展史，证据非常清楚，适当的安全行动会释放机会，实际上会加速发展。

比如，在铁路的早期发展中，有很多意外事故、车祸等，结果人们不愿意使用铁路。

随后开始出现安全标准和安全技术：闭塞信号系统，使火车能够知道它们是否在同一区域；空气制动器，使火车能够更有效地刹车；轨道宽度和轨距的标准化等。

这在当时并不总是受欢迎的，但事后看来，很明显这些技术，以及在某种程度上安全标准的政策发展，造就了19世纪末的美国铁路系统。这是技术史上反复出现的模式。

非常明确的是，并非每一项技术上的安全监管都是好的。当然也有过度监管、减缓发展速度甚至扼杀发展的情况。

但安全和机会之间存在根本性紧张关系的说法并不正确。

真正重要的是如何正确把握这个监管的度。

拜登政府几乎没有实施任何接近监管的措施。

唯一的例外是安全测试结果共享——这估计只要一个员工花费一天的工作时间。

此外，拜登政府创建了美国AI安全研究所的机构，它完全专注于国家安全——网络风险、生物风险、AI事故风险——并且完全是自愿的，与Anthropic、OpenAI，甚至与马斯克的公司xAI都有谅解备忘录的关系。

万斯并不是特朗普政府中支持AI加速的特例。

特朗普政府的成员能够理解特朗普、马斯克和美国「政府效率部」DOGE在AI方面的所作所为，或者至少是这些行为最终将带来的影响。

他们的基本观点是：

美国联邦政府过于庞大，无法有效利用AI技术。

如果AI的核心价值在于加速认知工作，那么政府就需要进行简化并重构，以更好地利用AI——无论喜欢与否，这正是马斯克和DOGE正在做的事情。

而且，政府的这种简化过程，实际上是一种创造性的破坏，它为政府更好地利用AI铺平了道路。

Ben无法理解，即便是为了更好利用AI，但这些如何帮助制定更好的AI政策？

而且为什么要从美国国际开发署开刀？毕竟，美国国际开发署是承担美国民间对外援助与对发展中国家发展援助的联邦政府独立机构。

所以他认为马斯克确实了解AI的潜力，但利用AI提升效率并不是DOGE的动机。

美国当局在技术现代化方面进展缓慢，在跨部门协作方面效率低下。而且，在彻底改革工作方式并利用可能提高生产力的因素方面，它的行动也显得迟缓。

Ben表示事实的确如此，但需要谨慎行事，同时必须大幅加快进度。

美国打工人何以维生？

Ben认为让AI普惠至关重要。

美国上任政府的AI政策，有两大原则体现了这一点。

首先是AI在职场的应用，需要以尊重工人的方式进行。

其次，应该在整个经济中部署AI，以增强工人的能力和技能。

AI有可能会使工作环境变得更糟，这种恶化去人性化、贬低并最终破坏工人的利益。这是不容忽视的第一部分。

但在AI对未来就业市场的影响难以预料，众说纷纭。Ben倾向于认为变化会很大，尽管他不是劳动经济学家。

在这个问题上，美国副总统万斯与前总统拜登的话术一模一样，即：在过渡期间，考虑工人的诉求。

历史上，铺设电力与铁路耗时持久，但这次AI来势汹汹，转瞬即至。

因此，即便是劳动经济学家也不知道如何处理AI。

Ben认为:「AI对经济的影响不会是一次性、均匀地发生，而是先影响某些行业、某些企业，然后逐步扩展。它在整个社会中的分布是不均衡的。」

而不均衡意味着不稳定。

比如说，现在有很多19岁的大学生正在学习市场营销。但AI可能让市场营销专业毕业生的失业率翻三倍。

而软件工程师的情况又有很大不同：AI既会取代很多这类工作，也会创造很多这类工作，因为对软件的需求将会大大增加。但也可能看到在某些地方发生这种情况。

但AI的优势，在某种程度上是一种平衡力量，它将增强个人的自主能力。

所以19岁或25岁的年轻人，能够使用AI系统做一些以前做不到的事。

总的来说，这可能带来充满活力的经济。

然而，需要确保在这个过渡过程中，每个工人和工人阶层都能得到保护。

Ben认为：「我们应该坦率地说：那将非常困难。」

在保护打工族利益上，美国一直做得不好。

而美国民众如此沉迷于所谓的「美国梦」:每个人的成功掌握在自己手中。

在打工人因非自身原因（如全球经济衰退）而失业时，美国大部分人既缺乏同情心，又很少考虑无业人员面临的现实。

总有人天赋异禀、才思敏捷，工作高效而灵活。而这些人会对无业者说：「看看他们，为什么你不是他们？」

这种思维方式几乎已经刻进了美国人的经济观里：「你应该接受再培训，转行到有需求的行业。」

可现实呢？难道所有被AI取代的人都要去当护士？

确实，有些工作是AI无法替代的，比如水管工，但真的需要那么多水管工吗？

现在确实缺少一些技工，但不可能让所有失业者都转行去做这些工作。

Ben和Klein非常同情美国打工人的这种遭遇，感同身受，对对现有答案的深深不满。

拜登在任期间，美国政府没有解决了这个问题。

这不仅关乎国家安全，美国的经济实力和繁荣也与此息息相关。

接下来该怎么做？

在Klein和Ben的播客节目中，一开始讨论的是，一项可能是人类历史上最具变革性的技术将在两到三年内落地。

大家的第一反应是：「哇，这件事真的很重大，我们该怎么办？」

但接下来，讨论就变得模糊起来了。也许是因为确实不知道答案。

但Ben多次提到的一个观点是：

事实上，美国当局几乎没有对AGI进行任何限制，一切都是自愿的，唯一要求的只是共享安全数据。

然后，AI加速派登场了：Marc Andreessen就曾直接批评过拜登政府在AI上的做法。

Ben认为在这个问题上应该保持一定的知识上的谦逊。在采取政策行动之前，首先要弄清楚自己在做什么，以及为什么这么做。

因此，面对一项变革性技术，可以理性地分析趋势，看到它即将到来，但这并不意味着必须立即制定一个针对2027 或2028年的行动计划。这两者并不矛盾。

但与此同时，美国建立了一些机构，比如AI安全研究所。它的作用是为将来提供一个更好的基础，以便下一届政府能够更成功地管理这项技术。

USAISI将促进人工智能模型的安全、安保及测试标准的制定，制定人工智能生成内容的验证标准，并为研究人员提供测试环境，评估新的人工智能风险，解决已知的影响

现在，管理AI技术的责任落到特朗普政府手上，随着技术的发展，特朗普政府需要决定如何在监管框架下进行合理调整。

参考资料：

https://www.nytimes.com/2025/03/04/opinion/ezra-klein-podcast-ben-buchanan.html

#不是CG？没加速？这个国产机器人跳「斧头帮」舞火了

网友：流畅到不像真的

灵活到像 CG，官方却说是一倍速实拍，国产机器人又整活了。

自打国产人形机器人在春晚扭秧歌出圈后，它们在「斗舞」这个赛道是越走越远了。

图中的机器人来自众擎，名叫 PM01。它跳的是周星驰电影《功夫》中的「斧头帮」舞蹈。用众擎自己的话来说，这段舞蹈「既精准还原神韵，又融入机械美感，刚柔并济」。

，时长01:53

众擎在 B 站发布的视频。

周星驰电影中的「斧头帮」舞蹈。

视频刚发布不久，弹幕区就炸了，因为这个机器人动作的丝滑程度让整个视频看起来不像是真的，而是 CG（电脑特效）或者加速。

众擎似乎在视频发布前就预料到了这种情况，因此在中间一段舞蹈的画面左上角标注了「1.0x」的字样，这通常表明当前视频是一倍速拍摄。

在视频后半段，他们还加入了一些实验室的花絮，并注明「本片内容均为实拍，非 AI 生成」。

在评论区，网友还晒出了一个第三视角拍摄的视频。在视频中，摄影师也入境了，人物、光影看起来也很自然，看起来像是现场记录。

图源：B 站用户 @布噜布噜你的头。

还有人试图从霓虹灯、领带等细节来判断是否加速：

在海外社交平台，也有人讨论这款机器人。有人注意的点是，它身边没有安全员。不过，在跳舞这种场景下，安全要求还没有那么高。如果真的让机器人进入人类家中，与人交互，安全性就是一个要重点考虑的内容了。

还有人说，国内这些机器人的 demo 看起来比 Figure、1X 这些海外机器人的要有趣得多。

而经常发布「有趣」机器人 demo 的另一家公司 —— 宇树也毫不意外地被拿来比较。不知道在技术实力方面，哪家公司更胜一筹？

众擎：成立还不到两年的国内机器人公司

众擎机器人（深圳市众擎机器人科技有限公司）成立于 2023 年 10 月，总部位于深圳，是一家专注于通用智能机器人及行业场景方案的研发与生产的高科技企业。

尽管成立不到两年，公司已在人形机器人领域取得了显著成就。众擎团队汇聚了中国第一批腿足式机器人研究与产业落地专家，以及来自 UC Berkeley、清华、普渡、港中文、北理工等顶尖高校的人才，具备从本体核心零部件到具身智能和运控算法的全栈自研能力。

众擎机器人的产品线涵盖多款面向科研教育、工业制造、商业服务及家庭场景的人形机器人。

PM01：轻量级、高动态、全开放通用具身智能体

PM01 身高 1.38 米，体重约 40 千克，全身具备 24 个自由度，移动速度 2m/s，腰部配备 320 度自由旋转电机，可完成大量高难度动作。

前文提到的跳「斧头帮」舞的正是这款机器人，它不久前在深圳人才公园以 12km/h 的速度奔跑，震撼了全球科技界。下个月北京人形机器人半程马拉松赛中，它可能会再次惊艳亮相。

同时，它也是全球首例完成前空翻的人形机器人：

SE01：首款全尺寸大人形机器人

SE01 利用端到端神经网络模型让机器人首次实现了拟人自然步态，全身采用航空级铝合金打造，尺寸与真人大小接近，适用于各种复杂场景。

这款机器人之前因超自然步态在深圳 citywalk，爆火海外。

SA01 系列：首个开源型平台

包括科研教育版 SA01 EDU 和文旅版 S2，面向科研教育市场，售价 3.85 万元，刷新了全球人形市场底价。

该系列机器人采用高品质、高强度的铝合金骨架，无悬臂设计，系统刚度强，抗冲击性好，具有高扩展性，用户可自由选择搭载机械臂和其他人形部件，被网友戏称为 T-800 的爷爷。

考虑到人形机器人的研发难度，一个成立还不到两年的公司能做出这些成果实属不易。在评论区，不少人在喊话众擎，希望他们继续加快研发，做出灵巧手等部件，让人形机器人的能力变得更完整。

看来，2025 年的人形机器人市场还会带给我们很多惊喜。

#真正的AI智能体时代即将到来

我们发现了几点「苦涩的教训」

最近一段时间，智能体（Agent）再次成为 AI 领域热议的焦点。

2025 年 1 月，OpenAI 发布了名为 DeepResearch 的 o3 模型变种，专门用于网页和文档搜索。得益于在浏览任务上的强化学习训练，DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。无独有偶，Claude Sonnet 3.7 也成功地将同样的强化学习方法应用于代码领域，在复杂的编程任务中展现出超越了以往模型的组合应用效果。

正如摩根斯坦利学者 William Brown 在演讲中所说的：「LLM 智能体已能够完成长时间、多步骤的任务了。」

这一进展不仅让智能体的能力迈上了一个新台阶，也引发了一个更深层的问题：LLM 智能体究竟是什么？

2024 年 12 月，Anthropic 给出了一个全新的定义：「LLM 智能体是能够动态指导自身流程和工具使用，并保持对任务完成方式控制的系统。」

与之相对，目前更为普遍的智能体实际上都是工作流系统（workflows），也就是通过预设的代码和规则来协调 LLM 和工具的系统，例如最近备受关注的 Manus AI。

对于很多开发者而言，这些 LLM 智能体形成的工作流系统能否提高生产力、在多大程度上提高，才是关键问题。

在近期的测试中，开发者 Alexander Doria 发现了一些显著的局限性，并写成博客分享给大家。

博客地址：https://vintagedata.org/blog/posts/designing-llm-agents

「我在周末进行的所有测试都显示出一个结果，即工作流系统存在着一些根本性局限，这些局限早在 AutoGPT 时代就已显现，而在搜索领域表现得尤为明显。」

不能有效制定计划，经常中途卡壳；
不能记忆内容，无法处理超过 5-10 分钟的任务；
无法长期有效执行任务，容易因连续的小错误最终彻底失败。

作者以对大语言模型智能体「LLM 智能体」的定义为出发点。它基于大型实验室的有限信息、开放研究生态系统中不断涌现的复现成果，再结合一些个人推测，尽力对我们目前所了解的内容进行全面总结。

博客主要内容如下：

LLM 智能体的「苦涩教训」

传统的智能体与基础大语言模型（base LLM）完全不同。

在传统的强化学习研究中，智能体被置于受限的环境中，就像在迷宫里行走，智能体的每个动作都有物理或规则上的约束。即便如此，智能体仍保留了一定程度的自由，因为解决谜题或游戏的方法往往不止一种。然而，每一步行动都必须以最终获胜和获得奖励为目标进行计算。随着时间的推移，高效的智能体会记住过去的行动，并逐步总结出模式和启发式策略来优化其行为。

这一过程被称为「搜索」，智能体在迷宫中的探索行为与用户在搜索引擎上的点击模式如出一辙。搜索研究有着长达数十年的丰富历史。例如，据传为 OpenAI 新一代模型提供支持的 Q-star 算法，便是源自 1968 年的 A-Star 搜索算法。最近，Pufferlib 进行的宝可梦训练实验便是这一过程的绝佳例证。在实验中，智能体被观察到积极寻找最优路径，失败后不断尝试，通过反复试错来优化策略。

然而，大语言模型的基础逻辑恰恰相反：

智能体能记住环境，但基础 LLM 不能，它们只能处理当前窗口内的信息；
智能体受现实条件限制，但基础 LLM 生成的是概率最高的文本，随时可能「跑题」；
智能体能规划长期策略，基础 LLM 却只能做好单步推理，面对多步推理任务很快就会「超载」。

目前，大部分 LLM 智能体的做法是利用预定义的提示词（prompt）和规则来引导模型。然而，这种方法注定会遇到「苦涩的教训」（Bitter Lesson）。所谓教训，是指人们往往倾向于将自己的知识硬编码到系统中，短期内可能效果显著，但长期来看却严重限制了系统的发展潜力。真正的突破总是来自于搜索与学习能力的提升，而非人为规则的堆砌。这一教训提醒我们，过度依赖规则设计可能会阻碍系统的自我优化和进化。

这就是为什么类似 Manus AI 这类工作流系统无法顺利地订机票或教你徒手打虎 —— 它们本质上是被苦涩教训咬了一口。靠提示词和规则无法持续扩展，你必须从根本上设计能够真正搜索、规划、行动的系统。

强化学习 + 推理：LLM 智能体的「成功秘诀」

真正的 LLM 智能体，应该是什么样呢？这是一个复杂的问题，目前公开的信息很少。Anthropic、OpenAI、DeepMind 等少数实验室掌握着关键知识。目前，我们只能从现有的研究中尝试来推测：

1. 强化学习 RL：与传统智能体类似，LLM 智能体也通过强化学习进行训练。这里的「迷宫」是所有可能的文本组合，而「出口」或「奖励」则是最终的目标。验证是否达成奖励的过程被称为「验证器」——William Brown 新开发的验证器库正是为此而生。目前，验证器主要用于形式化结果，如数学方程或编程代码。但 Kalomaze 的研究表明，通过训练专门分类器，也可为非严格可验证的输出构建验证器。值得注意的是，语言模型在评估方面的表现优于生成，因此即使用小型 LLM-as-judge，也能显著提升性能和奖励设计。

2. 草稿模式（Drafts）：LLM 智能体的训练依赖于生成草稿并同时评估。这一选择并非显而易见，因为早期研究主要集中在扩展搜索到整个 token 序列。计算限制和「推理」模型的突破推动了这一转变。典型的训练过程是让模型生成逻辑序列，假设能得出正确答案的序列更可能是正确的。这可能导致反直觉的结果（如 DeepSeek R0 模型偶尔在英语和中文间切换）。然而，正如苦涩的教训所示，强化学习只关注结果的有效性，甚至允许非正统或计划外的捷径。就像智能体在迷宫中寻找出路，语言模型必须通过纯粹推理找到路径 —— 没有预定义提示，只有奖励和获取奖励的方式。

3. 结构化输出（rubric）：LLM 草稿通常被预定义为结构化数据部分，以便于奖励验证，并在一定程度上简化整体推理过程。这是一种「评分标准工程」，既可以直接作为奖励函数进行管理，也可以在大型实验室的训练设置中通过后训练阶段实现。

4. 多步训练：LLM 智能体的训练需要大量草稿和多步骤迭代。搜索领域的情况尤其如此：我们不会一次性评估搜索结果，而是评估模型获取资源、处理结果、进一步获取资源、调整计划、回溯等能力。因此，DeepSeek 的 GRPO 结合 vllm 的文本生成成为当前首选方法。近期，我发布了一个基于 William Brown 工作的代码笔记本，成功在 Google Colab 提供的一块 A100 GPU 上运行了 GRPO。计算需求的降低将是未来几年强化学习和智能体设计普及的关键因素。

如何实现规模化？

以上是基础构建模块，但从这些到 OpenAI 的 DeepResearch 以及其他能够处理长动作序列的智能体，还有一段距离。请允许我做一些推测。

目前的开放强化学习 / 推理研究主要集中在数学领域，因为我们拥有大量数学练习题，其中一些被 Common Crawl 收录，并由 HuggingFace 通过分类器提取。然而，对于许多其他领域（尤其是搜索领域），我们缺乏相关数据，因为我们需要真实的动作序列：日志、点击记录、行为模式等。我不久前曾在日志分析领域工作过，模型（虽然仍在使用马尔可夫链，但这个领域变化很快）仍然常在 20 世纪 90 年代末泄露的 AOL 数据上进行训练。最近，至少有一个重要的公开数据集被引入：Wikipedia Clickstream，这是一组从一篇维基百科文章到另一篇文章的匿名点击轨迹数据。

但让我问一个简单的问题：这个数据集在 HuggingFace 上吗？没有。

事实上，HuggingFace 上几乎没有真正能增强规划能力的「智能体数据」。整个领域仍然默认 LLM 模型需要通过自定义的规则系统进行编排。我甚至不确定 OpenAI 或 Anthropic 是否拥有足够数量的此类数据。这至少是一个传统科技公司占据强势地位的领域，而且没有简单的替代方案：你无法购买谷歌庞大的用户搜索历史数据。

目前能想到的解决方法是：通过模拟直接生成数据。传统的强化学习模型并不依赖过往的实例。它们通过广泛且反复的搜索来推断出约束条件和过度策略。一旦应用到搜索领域，典型的强化学习方法与博弈中的强化学习并无太大差异：让模型自由探索，每当它找到正确答案时就给予奖励。这可能是一个漫长的探索过程。就好比你要找出一篇 20 世纪 60 年代被遗忘的苏联论文中记载的某个特定化学实验。通过纯粹的蛮力，也许强制执行一些语言查询变化，模型最终偶然找到了正确结果。然后，它可以汇总导致这一结果的所有因素，从而使这一发现在未来更有可能实现。

我们来做一些简单的计算。在典型的强化学习（RL）设计中，以 GRPO 为例，一次可以同时进行 16 个草稿的探索 —— 如果大型实验室训练的模型采用更高的草稿迭代次数，我也不会感到意外。每个草稿可能会依次浏览至少 100 个不同的页面。这意味着一次就有 2000 个潜在查询，而这仅仅只是一步。一个复杂的强化学习训练序列可能需要进行数十万步（这也是我认为当前训练正处于中期阶段的原因之一），并且要处理各种各样的任务，尤其是针对像通用搜索能力这样复杂的任务。如此算来，一个训练序列就需要数亿次的单独连接 —— 在这个过程中，甚至可能会导致一些常用学术资源遭受类似分布式拒绝服务（DDoS）攻击的情况。这显然并不理想，此时，网络带宽而非实际计算能力，成了主要的限制因素。

Game RL 面临着类似的限制。这就是为什么像 Pufferlib 这样的 SOTA 方法会「从学习库的角度将环境包装成 Atari，而不会失去通用性」：RL 模型只需要看到它们所需使用的信息。当这种方法应用于搜索领域时，涉及到借助大型的 Common Crawl 数据转储，并将数据伪装成通过 Web 处理的样子，包含 url、api 调用和其他典型的 http 工件。而实际上，这些数据早已存储在本地具有快速查询能力的数据框中。

因此，我推测用于搜索的大语言模型强化学习智能体可以通过以下方式进行训练：

利用固定的数据集创建一个大型的网络搜索模拟环境，并持续将数据「转换」后反馈给模型。通过这种方式，让模型仿佛置身于真实的网络搜索场景中进行学习。
使用某种形式的轻量级 SFT（如 DeepSeek 的 SFT-RL-SFT-RL 步骤）预冷模型，可能基于可以找到的任何现有搜索模式。其总体思路是预先规范模型的推理和输出方式，从而加快实际强化学习训练的速度，这类似于进行某种预定义的规则设计。
准备或多或少复杂的查询，并将相关结果作为验证器。我唯一的猜测是，它涉及一些复杂的合成管道，从现有资源进行反向翻译，或者可能只是来自博士级注释者的非常昂贵的注释。
多步骤 RL 中的实际训练。模型提交查询、发起搜索、发送结果、浏览页面或重新表述结果，所有这些都是多步骤完成的。从模型的角度来看，它就像是在浏览网页，但所有这些数据交换都是由搜索模拟器在后台准备的。
也许一旦模型在搜索方面足够好，就会重新进行另一轮 RL 和 SFT，这次更专注于编写最终的综合体。同样，这可能涉及一个复杂的合成流程，其中输出会转变为输入，例如将原始的长篇报告拆分成小块，然后通过推理将它们重新组合起来。

告别对智能体进行提示

最终，我们得到了一个真正的智能体模型。它在实践中会如何改变标准的工作流程或模型编排呢？仅仅是整体质量的提升，还是一种全新的范式转变？

让我们回顾一下 Anthropic 对智能体的定义：LLM 智能体「能够动态地引导自身的处理流程和工具使用，自主掌控任务的完成方式」。我将再次以我较为熟悉的搜索场景为例进行说明。

一直以来，有很多人猜测检索增强生成（RAG）会被具备长上下文处理能力的直接大语言模型应用所取代。但这种情况并未发生，原因有很多：长上下文处理计算成本高昂，在处理相对复杂的查询时准确性欠佳，而且输入信息的可追溯性较差。真正具备智能体能力的搜索大语言模型并不会取代 RAG。实际可能发生的情况是，在很大程度上实现 RAG 的自动化，并整合向量数据库、路由和重排序等复杂操作。

一个典型的搜索过程可能会按照以下方式进行：

分析、分解查询，并对用户意图做出一些假设。
如果查询不清楚，可能会立即提示用户返回（OpenAI DeepResearch 已经这样做了）。
随后，模型既可以开展通用搜索，也可以在合适的情况下，直接转向更专业的研究资源。该模型已经记住了标准的应用程序编程接口（API）方案，能够直接调用它们。为节省推理时间，模型可优先借助现有的网络「模拟」版本，例如各类 API、网站地图以及庞大的数据网络生态系统。
搜索序列经过学习和训练。该模型可以放弃错误的方向。或者它可以像专业知识工作者那样走另一条路。我看到 OpenAI DeepResearch 的一些最令人印象深刻的结果证明了这种能力：通过一系列内部推理，可以正确定位索引不良的来源。
搜索序列经过学习和训练。模型能够及时放弃错误的搜索方向，或者像专业知识工作者那样另辟蹊径。我在 OpenAI DeepResearch 中看到的一些令人印象深刻的结果，就证明了这种能力：通过一系列的内部推理，模型能够准确找到索引不佳的资源。
每一步操作和整个过程都会作为内部推理轨迹被记录下来，从而在一定程度上为搜索结果提供可解释性。

简而言之，搜索过程是直接设计的。LLM 智能体充分利用现有的搜索基础设施，并尽其所能以巧妙的方式开展搜索。目前不需要额外的数据准备。也不需要训练用户与生成式 AI 系统交互。正如 Tim Berners-Lee 十多年前强调的那样，「思考 Agent 的一种方式是，如果用户明确要求，程序在每个实例中都会执行用户希望它执行的操作。」

现在，为了更清楚地了解实际投入生产的 LLM 智能体，你可以开始将这种方法迁移到其他领域。真正的网络工程智能体同样能够直接与现有基础设施交互，根据需求生成设备配置（如路由器、交换机、防火墙），分析网络拓扑并提出优化建议或解析错误日志以识别网络问题的根本原因。真正的金融智能体将接受培训，以提供竞争数据标准的无缝和准确翻译（如 ISO 20022 到 MT103）。目前，仅靠一系列系统提示是无法完成上述任何一项任务的。

目前，唯一能够开发真正 LLM 智能体的只有大型实验室。它们掌握着所有优势：专业技术、拥有部分数据（或者至少掌握合成数据的方法）以及将它们的模型转化为产品的总体愿景。我不确定这种技术集中是否是一件好事，尽管资金生态系统不愿将真正的模型训练视为长期颠覆和价值创造的实际来源，这在很大程度上助长了这种集中化现象。

我一般不喜欢夸大其词。然而，鉴于 LLM 智能体具有巨大的颠覆潜力和价值获取能力，我坚信让 LLM 智能体的训练和部署走向大众化已刻不容缓。因此，开放验证器、GRPO 训练样本，以及可能会很快出现的复杂合成管道和模拟器。

2025 年会是智能体元年吗？有可能。让我们拭目以待。

参考内容：

https://vintagedata.org/blog/posts/designing-llm-agents

https://x.com/dotey/status/1900179777635356827

#CoSER

大模型怎么做好角色扮演？最大的真实数据集、SoTA开源模型、最深入的评估在这里

王鑫涛，复旦大学博士生，师从肖仰华、汪卫教授，致力于探索用AI创造具有人格的数字生命。研究方向聚焦大语言模型与Agent技术，在AI角色扮演领域发表多篇ACL/EMNLP论文，以及该领域首篇研究综述，总计引用量三百余次。他的研究寻求AI技术与人类情感需求的结合。科研之外，他是一位二次元爱好者、业余Coser。该研究完成于他在阶跃星辰实习期间，指导者为王亨老师。

论文标题：CoSER: Coordinating LLM-Based Persona Simulation of Established Roles
论文链接：https://arxiv.org/abs/2502.09082

角色扮演 AI（Role-Playing Language Agents，RPLAs）作为大语言模型（LLM）的重要应用，近年来获得了广泛关注。无论是用于情感陪伴、故事创作、游戏中的 AI 角色，还是真人的数字分身，都需要模型能够准确捕捉和模拟特定角色的设定、个性和行为模式。特别是当扮演小说、动漫中的知名角色时，模型需要获取并利用关于这些角色的大量知识。然而，现有的角色扮演 AI 面临两大核心挑战：缺乏高质量的真实角色数据集，以及缺少有效的评估方法。

为解决这些问题，复旦大学和阶跃星辰合作发表了一篇工作，CoSER（Coordinating LLM-Based Persona Simulation of Established Roles），一个包含当下最大的真实数据集、SoTA 开源模型和最深入的评估方法的完整框架，用于高效构建和评估角色扮演 AI。本文的代码、数据集和模型已在 Github 和 Huggingface 上开源，用于促进角色扮演 AI 在研究和应用中的发展。

CoSER 8B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-8B
CoSER 70B: https://huggingface.co/Neph0s/CoSER-Llama-3.1-70B
CoSER Dataset: https://huggingface.co/datasets/Neph0s/CoSER
CoSER Code: https://github.com/Neph0s/COSER
See and Chat with Your Favorite Book Characters: https://ch.rhineai.com/characters

CoSER Dataset

最大、最真实、最丰富的角色扮演数据

从世界最知名的 771 本书中，本文构建了 CoSER Dataset，迄今为止最大、最真实、最丰富的角色扮演数据集，包含：

来自 771 本知名文学作品的 17,966 个角色
29,798 段书中的真实对话，而非由大模型生成
全面的数据类型：角色概述、对话（包含详细的上下文情景）、关键剧情的摘要和角色经历和等
语言、动作和想法：除了语言的对白，对话中还包括角色的动作和想法。

上图将 CoSER Dataset 与之前的数据集进行了比较。概括来说，CoSER 的独特之处在于：

1. 真实性：不同于此前数据集中大量使用的 LLM 生成的角色问答对，CoSER 数据集从经典文学作品中提取真实角色对话，在忠实刻画角色的同时，保留了真实对话的复杂性，是天然的多轮、多角色的优质对话数据。

2. 全面性：CoSER 数据集不仅包含角色概述和对话，还包括剧情摘要、角色经历和对话背景等丰富内容。详细的对话背景在角色扮演的训练和评估中非常重要，而剧情摘要、角色经历提供了更丰富的角色知识。

3. 多维表达：对话内容涵盖语言（speech）、动作（action）和想法（thought）三个维度，使角色表现更为立体。其中，想法数据能帮助模型在训练中更好地理解角色的行为和语言。

4. 环境作为特殊角色：将环境视为特殊角色，扩展了角色对话能表达的信息，使对话数据可以表示书中的环境反馈、大众角色反应等信息。

Given-Circumstance Acting

角色扮演的训练与评估方法

本文引入了给定情境表演（Given-Circumstance Acting，GCA）方法用于训练和评估 LLM 的角色扮演能力，这一方法受到了《演员的自我修养》的作者 - 斯坦尼斯拉夫斯基 - 的表演理论的启发。

在训练阶段，给定一段对话及其上下文情景，本文让模型每次扮演对话中的一个角色，并在相应的台词上进行训练。基于这一方法，本文训练了 CoSER 8B 和 CoSER 70B 两个模型，它们基于 LLaMA-3.1 构建，展现了真实、生动的角色表现能力，并在多项角色扮演评估上取得 SoTA 成绩。

在评估阶段，GCA 评估由两个步骤组成：

1. 多智能体模拟（Multi-agent Simulation）：构建一个多智能体系统，让被评估模型依次扮演不同角色，在给定情境下进行模拟，获得一段由多个角色 AI 交互生成的对话。

2. 基于惩罚的 LLM 评判（Penalty-based LLM Juding）：让 LLM 扮演评判者，使用详细评分标准（rubrics）和原始对话作为参考，按照 “采点扣分制” 识别明确的表演缺陷来评估模拟对话的质量。下图展示了 “人物忠实度” 维度的扣分标准：

本文将评估维度按照 1. 关注自身质量 or 关注忠于原作；2. 关注单一角色 or 关注整体模拟，分成了以下四个维度。

GCA 评估方法的优势在于：1. 通过多智能体模拟，全面反映模型的多轮、多角色的扮演能力；2. 基于原著中的真实对话作为 Groundtruth，并提供专家级评分标准指导 LLM 评判者。

关键实验与结论

在本文提出的 GCA 评估中，CoSER-70B、GPT-4o、Step-2、Doubao-pro 取得了最好的表现，其中，CoSER-70B 的表现远超其他开源模型。进一步，本文在实验中还汇报了 BLEU、ROUGE-L 等指标来比较模型生成对话与 Groundtruth 对话的一致性，在这一指标上 CoSER-70B 超过了所有的现有模型。

在 InCharacter、LifeChoice 等基于分类和多选题的角色扮演基准测试上，CoSER 模型也取得了优秀的表现。其中，CoSER-70B 在 InCharacter 和 LifeChoice 基准测试上分别达到了 75.80% 和 93.47% 的准确率，超越或匹配 GPT-4o。

在论文中，作者还进行了其他实验，证明了想法数据在训练 / 推理阶段的重要性、将 CoSER 数据用于检索增强（RAG）的有效性等结论，感兴趣的读者可以在论文原文中找到相应的实验。

Case Study

最后，下图列出了 CoSER 测试集中的一个例子（出自《权力的游戏》），包括其中的对话场景、Groundtruth 对话及 CoSER-70B 生成的结果。在这个例子中，我们看到，CoSER-70B 不仅将角色的背景、性格模仿得活灵活现，还用上了原作的角色的经典台词（不在数据中出现），体现了 CoSER 模型在扮演小说角色时的优秀表现。

#LIFT

北大团队提出：将长上下文知识注入模型参数，提升大模型长文本能力

机构: 北京大学人工智能研究院北京通用人工智能研究院

作者: 毛彦升徐宇飞李佳琪孟繁续杨昊桐郑子隆王希元张牧涵

长文本任务是当下大模型研究的重点之一。在实际场景和应用中，普遍存在大量长序列（文本、语音、视频等），有些甚至长达百万级 tokens。扩充模型的长文本能力不仅意味着可以在上下文窗口中装入更长的文本，更是能够更好地建模文本段落间信息的长程依赖关系，增强对长文的阅读理解和推理。

现有大模型解决长文本任务的难点之一是传统的 dot-product attention 对输入长度呈平方复杂度，且存储 KV cache 的开销随输入长度增加，时间和空间开销都较高。

此外，模型难以真正理解散落在长文本各处信息间的长程依赖。主流的长文本解决方法包括 Retrieval-Augmented Generation（RAG）[1]、long-context adaption 等。

RAG 从长文本中抽取与问题相关的信息放入 context window 进行推理，但它依赖准确的检索方法，大量的噪声和无关信息会进一步引起模型幻觉。

long-context adaption 通过在大量长文本的数据集上后训练[2]扩展模型的 context window，但其推理复杂度随文本长度平方增长、显存占用高，且 context window 仍然有限。

为了应对长文本开销大、难以建立长程依赖的挑战，北京大学张牧涵团队提出全新的框架 Long Input Fine-Tuning（LIFT）。通过将长输入文本训练进模型参数中，LIFT 可以使任意短上下文窗口模型获得长文本能力。

题目: LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning
文章链接: https://arxiv.org/abs/2502.14644

表 1 是 LIFT 和现有常见方法的对比。

表 1. LIFT 与传统长文本处理方法的对比

LIFT 首次提出将长文本知识存储在模型参数中，而不是外部数据库或上下文窗口中，类比人类将 working memory 转成 long-term memory，实现知识的内化。

与此相比，我们认为无限地扩充 context window 无法真正解决长文本、长历史的挑战，因为无论再长的 context window 仍然有耗尽的一天，而只有将上下文持续地转变成 parametric knowledge，才能实现无限地学习。

研究创新

我们的方案具有以下优势：

动态高效的长输入训练。LIFT 能够通过调整模型参数，动态适应新的长输入文本，将其作为新的知识源，无需进行资源密集型的 long-context adaptation。针对每一篇需要处理的长文本，LIFT 通过分段的 language modeling 以及精心设计的辅助任务来微调模型，实现用模型参数来记忆和理解长文本，从而避免过长的 context 造成的推理复杂度提升和长程依赖丢失。
平衡模型参数知识和原有能力。由于模型原有参数（比如 Llama 3 8B）通常显著大于记忆长文本所需的参数量，全参数微调面临过拟合长文本而损失模型基础能力的风险。为了在模型原有能力和微调后新的参数内知识之间找到平衡，我们提出了一种专门的参数高效微调模块——门控记忆适配器（Gated Memory Adapter），它能平衡原始模型的 In-Context Learning（ICL）能力和 LIFT 训练后对长输入的记忆理解能力。
在流行的长上下文任务上取得了巨大提升。在几个广泛认可的长上下文基准集（例如 LooGLE [3]、Longbench [4]）上的评估表明，不同 LLM 始终能通过 LIFT 在常见的长/短依赖问答和摘要等通用任务上受益。例如，在非常具有挑战性的 LooGLE 长依赖问答上，相较仅通过 ICL，LIFT 过后的 Llama 3 8B 的正确率从 15.44% 提升至 29.97%。在 LooGLE 短依赖问答上，LIFT 将 Gemma 2 9B 的正确率从 37.37% 提升至 50.33%。

图 1.LIFT 框架以及和现有方法对比

LIFT 方法

长文本切段训练

受 LLM 预训练的启发，LIFT 将「记忆长文本」的任务建模为语言建模（Language Modeling）任务。但在整篇长文本上进行语言建模训练开销过大，且短上下文模型不具备直接在长文本上训练的能力。为此，LIFT 将长文本切分为固定长度的片段，对所有片段并行进行语言建模训练。

如果将长文本切分为互不相交的片段（如图 2 中 Trivial segmentation 所示），模型将丢失片段间的正确顺序，而顺序对于长文本中的长程依赖和总体理解非常重要。因此，LIFT 要求相邻片段有一定重叠（如图 2 中的 Our segmentation 所示）——每个片段的末尾就是下一个片段的开头。

这样，如果模型能够记忆某个片段，那么它就能够续写出下一个片段，直到按顺序续写出全文。在实验中，我们取重叠的长度为片段长度的 5/8，因此训练的复杂度对长文本的长度呈线性。

图 2. LIFT 的文章切段方法

辅助任务训练

在特定任务上微调 LLM 通常会导致其在其他任务上能力下降。同理，长文本切段训练可能导致 LLM 的 reasoning、instruction-following 等能力损失。

研究团队提出在合成的辅助任务上训练，一方面弥补模型的能力损失，另一方面帮助模型学会应用长文本中的信息回答问题。具体而言，研究团队用预训练的 LLM 基于长文本片段自动生成几十个问答类型的辅助任务。

于是 LIFT 训练分为两个阶段，第一个阶段只在长文本切段任务上进行语言建模训练，第二个阶段在辅助任务上训练模型基于长文本回答问题的能力。

Gated Memory 架构

尽管 LIFT 可以任意使用全参数微调或 LoRA/PiSSA 等参数高效微调方法来训练模型，我们提出了一个专用的 Gated Memory Adapter 来平衡长文本记忆和能力。其核心在于用短窗口模型模拟假设长文本在上下文窗口中时模型的行为和内部表示。

为此我们将假设的「全上下文」分为窗口外（out-of-context）和窗口中（in-context）两部分——窗口外放置的是预计将通过微调放入参数中的长文本，而窗口中放置的是关于长文本的问题。

我们的目的是设计一个模型，用 LIFT 参数 + 窗口外内容（短上下文）去模拟全上下文的行为，以此达成只用短上下文模型实现长上下文的注意力机制。

为此，我们设计了一个门控记忆模块（Gated Memory）（见图 3）。该模块为每个注意力层增加了两个特殊的 MLP（图 3 中的 Memory MLP 和 Gate MLP），均以每个位置的 query vector 为输入，分别用于学习「窗口外部分的权重」（gate）和「窗口外部分的记忆提取内容」（memory）。

这样，当一个新的 query 进入，模型可以动态地调控其使用多少 LIFT 记忆的窗口外内容：当 gate=0，模型将恢复为纯 ICL，不用任何 LIFT 记忆的信息；当 gate=1，模型将完全依赖 LIFT 知识而忽略当前窗口中的上下文。

这种动态分配机制可以有效地平衡对长文本的记忆和模型原本的 ICL 能力。LIFT 训练过程中，我们将只微调 Gated Memory 中的参数，实现了模型在微调较小参数量的情况下，有效地记忆长文本内容并用于下游任务。

实验证明了这一结构的有效性（见下文表 4）。

图 3.Gated Memory 模块

实验测评

为了评估 LIFT 的有效性，研究团队在 Llama 3 8B 和 Gemma 2 9B 两个短文本开源模型（上下文窗口为 8k）上和 GPT 3.5 商用模型（上下文窗口为 16k）上比较了 LIFT 方法和使用截断 ICL 的 baselines。

baselines 使用原模型，尽可能将长文本填入模型的上下文窗口（优先填入开头和末尾 tokens，其余截断），并保证问题 prompt 全部填入。LIFT 在测试时的输入与 baseline 相同，但使用的模型为经过 LIFT 训练的模型，并默认使用 Gated Memory 适配器。

对于 GPT3.5，我们直接调用 GPT 3.5 的训练 API。我们主要在两个代表性的长文本评测集 LooGLE 和 LongBench 上评测，其中 LooGLE 包含大量人工标注的极具挑战性的长依赖问答（LongQA）和 LLM 自动生成的短依赖问答（ShortQA），LongBench 包含问答、摘要等多种任务。

结果如表 2、表 3 所示，实验表明：

LIFT 极大提升了短文本模型在 LooGLE 上的表现。LIFT 稳定提升了被测模型在 ShortQA 和 LongQA 中的平均指标。值得注意的是，Llama 3 在 LongQA 上的指标从 15.44% 提升至 29.97%，Gemma 2 在 ShortQA 上的指标从 37.37% 提升至 50.33%。
LIFT 提升了短文本模型在 Longbench 的大多数子任务上的表现。研究团队从 LongBench 中选取了 5 个具有代表性的子任务进行测试，任务包括多篇文章间的多跳推理、阅读理解和概括、检索召回等，Llama 3 通过 LIFT 在其中 4 个子任务上均有提升。
LIFT 的效果与模型的原有能力以及测试任务有关。LIFT 虽然普遍提升了模型的长文本能力，但在部分子任务上仍有改进空间。通过分析各个子任务，研究团队认为与测试问题相似的辅助任务可以促进模型关注对测试任务有用的长上下文信息，有助于下游任务表现。

表 2. LIFT 在 LooGLE 上的 GPT4_score 指标

表 3. LIFT 在 LongBench 上的表现（评测指标和原数据集一致）

表 4. LIFT Gated Memory 架构的消融实验

此外，我们通过消融实验验证了 Gated Memory 适配器的作用。如表 4 所示，在 LooGLE ShortQA 数据集上，Gated Memory 架构相比于使用 PiSSA[5]（一种 LoRA 的改进版方法）微调的原模型，GPT-4 score 提升了 5.48%。

总结、展望和讨论

在本文中，我们提出了一种新颖的框架——LIFT，以增强 LLMs 的长上下文理解能力。LIFT 通过高效微调模型参数，利用参数内知识（in-parameter knowledge）来动态适应长输入，从而提升长上下文任务的能力。实验结果表明，在 LooGLE 和 LongBench 等流行基准测试中，LIFT 显著提升了短上下文 LLMs 在长上下文任务中的表现。

然而，LIFT 仍然存在一定局限性。首先，在 context window 不够的情况下，我们经常需要截断上下文来做长文本推理，但对于需要精确信息提取的任务，如「大海捞针任务」（Needle in a Haystack），该方法仍然性能欠佳。

其次，LIFT 通过将长文本输入注入模型参数，增强了模型对数据的熟悉度，但下游任务的效果仍然依赖于模型能否自主提取和利用 LIFT 过程中获得的参数化知识。分析表明，模型在「in-context」和「out-of-context」问题上的表现存在显著差距，表明 LIFT 后的参数化知识提取能力仍需进一步优化。

此外，我们发现在 LIFT 过程中引入辅助任务并不能总是显著提高模型能力，其性能严重依赖下游测试任务和辅助任务的相似程度，甚至可能因过拟合而导致性能下降。因此，如何设计更通用的辅助任务是未来的研究重点。

最后，尽管 Gated Memory 架构显著提升了长文本记忆和 ICL 能力的平衡，我们发现 LIFT 后的模型仍存在对原有能力的破坏，如何设计更好的适配器来平衡记忆和能力，也留作未来工作。

LIFT 的理念非常有趣，因为人类的短期记忆也会转化为长期记忆，这一过程类似于 LIFT 将上下文中的知识转换为参数化知识。虽然距离彻底解决 LLMs 的长上下文挑战仍然任重道远，但我们的初步结果表明，LIFT 提供了一个极具潜力和前景的研究方向。

我们鼓励社区一同探索 LIFT 在更广泛的训练数据、更丰富的模型、更先进的辅助任务设计以及更强计算资源支持下的潜在能力。

参考文献

[1] Jiang, Ziyan, Xueguang Ma, and Wenhu Chen. "Longrag: Enhancing retrieval-augmented generation with long-context llms." arXiv preprint arXiv:2406.15319 (2024).

[2] Chen, Yukang, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, and Jiaya Jia. "LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models." In The Twelfth International Conference on Learning Representations.

[3] Li, Jiaqi, Mengmeng Wang, Zilong Zheng, and Muhan Zhang. "LooGLE: Can Long-Context Language Models Understand Long Contexts?." In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 16304-16333. 2024.

[4] Bai, Yushi, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du et al. "LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding." In ACL (1). 2024.

[5] Meng, Fanxu, Zhaohui Wang, and Muhan Zhang. "PiSSA: Principal singular values and singular vectors adaptation of large language models." Advances in Neural Information Processing Systems 37 (2024): 121038-121072.

[6] Hong, Junyuan, Lingjuan Lyu, Jiayu Zhou, and Michael Spranger. "Mecta: Memory-economic continual test-time model adaptation." In 2023 International Conference on Learning Representations. 2023.

#Long-CoT 后，推理模型的「思维模板」有哪些新玩法？

基于思维链（Chain-of-Thought）的推理模型正经历从"短程启发"到"长程规划"的范式跃迁。OpenAI o1、DeepSeek R1、Kimi K1.5 等基于「长链思维」的推理模型在数学证明、复杂决策等复杂场景中展现出接近人类的分层推理能力。「长链思维」的「模板」怎么魔改更高效？哪些「模板」能带来更高的推理能力上限？

01. 推理模型后训练效果好，「思维模板」少不了？？

「思维模板」可用在哪些后训练环节？近期有哪些新的模板设计？...

02. 提高推理效率，「思维模板」是如何工作的？

长链思维的模板怎么改更高效？...

03. 哪些「思维模板」能提高模型的推理能力上限？

CoT 怎么设计能让LLM的推理效果更好？把代码改成CoT会更强吗？

04. 多模态推理模型的「思维模板」应如何构建？

多模态推理有哪些思维模板？现有的模板哪些更强？

01 推理模型后训练效果好，「思维模板」少不了？

在 LLMs 中的「推理」仍然是一个有争议的话题，现有的许多模型可以产生看起来逻辑连贯的回应，但它们的推理方式与人类的逻辑推理截然不同。而近期许多推理模型在 test-time Scaling 中取得突破，通过让模型产生更长的 CoT 来实现更强的推理能力，也引发了许多对该技术的深入研究。CoT 如同推理模型提供了一套套「思维模板」，在后训练的多个环节里扮演着重要角色。

1、在推理模型的后训练中，以思维链（CoT）为代表的推理策略的核心在于类似提供一套「思维模板（Template）」，让模型将问题分解为逐步的中间推理步骤，逐步阐述解法，从而提升模型的推理能力。[1-1]

① 让模型按照思维模板进行推理为研究者提供了观察模型为何会犯错的窗口，从而为优化和 debug 提供了更多机会。

② 让模型按照模板思考适用于数学应用题、常识推理和符号操作，也允许用在其他能用人类通过语言解决的问题，从而加强 few-shot 样例的效果，同时增强准确性和可解释性。

2、在「思维模板」的探索和优化中，近期如 OpenAI o1、DeepSeek R1 和 Kimi 1.5 等工作证明了将长链思考（Long-CoT）形式的模板用作推理模型后训练，可以有效提高其性能上限，进而带来了更多有关这种推理策略的研究。

① 通过思维模板学会长链思考的模型不仅具有更长的符号长度，还具备「分支和回溯」即「错误验证和纠正」等复杂能力。[1-3]

② 以 DeepSeek 团队为例，其为 R1-Zero 设计了一个简单的<think><answer>模板来引导模型在强化学习中遵循指令，确保模型在生成答案之前先进行逐步推理，更清晰地表达其思考过程，减少直接跳跃到错误答案的可能性。[1-2]

③ 仅通过简单的模板，R1-Zero 在训练过程中自然学到了 Long-CoT（长链推理）的能力，即通过生成较长的推理步骤来逐步解决问题，取得了更优的推理效果。[1-2]

3、当模型遵照「思维模板」学会分步骤推理后，其生成的 CoT 数据，尤其是 Long-CoT 数据能够进一步用作 SFT 和和强化学习中奖励模型或奖励机制的一部分，进一步用作推理模型的训练。[1-2]

① 在 DeepSeek R1 的训练过程中，研究者通过收集数千条 Long-CoT 数据用作 R1 的冷启动微调，为后续强化学习训练打下基础。

② 在 R1 的推理导向的 RL 训练中，DeepSeek 团队通过语言一致性奖励机制对模型在推理时生成的 CoT 进行评估，从而确保 R1 在处理多语言混合问题时推理过程的可读性。

③ 此外，在训练生成的 checkpoint 通过拒绝采样收集高质量的的推理（Long-CoT）数据可用作新一阶段或新模型的 SFT。DeepSeek 团队用这种方法，通过 R1 训练得到了一系列蒸馏模型。

4、除了 DeepSeek 和 Kimi，近期有许多工作尝试翻新「思维模板」设计，进而带来许多「XoT」「CoX」等 CoT 的优化或变体，分别针对不同场景的推理任务提供适配的「模板」以加强模型的推理性能、效率或节省预算。

02 提高推理效率，「思维模板」是如何工作的？

在追求高效推理的过程中，研究者们提出了多种创新的 CoT 模板，旨在减少计算资源的浪费，同时保持模型的准确性和推理能力。这些模板通过优化推理过程、动态调整计算量等方式，实现了在不同场景下的高效推理。近期出现的 Dynasor、LCPO 和 CoD 均尝试设计独特的机制在保证推理质量的同时显著降低计算成本。类应用，另一类是代码工具类应用，包括针对于开发者的 Agentic IDE 应用和文本到网络应用平台......

#Test-time Adaptation for Cross-modal Retrieval with Query Shift

四川大学提出Test-time Adaptation新范式，突破查询偏移挑战

在 NeurIPS 2024 大会上，OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在其主题报告中展望了基础模型的未来研究方向，其中包括了 Inference Time Compute [1]，即增强模型在推理阶段的能力，这也是 OpenAI o1 和 o3 等核心项目的关键技术路径。

作为 Inference Time Compute 的重要方向之一，Test-time Adaptation（TTA）旨在使预训练模型动态适应推理阶段中不同分布类型的数据，能够有效提高神经网络模型的分布外泛化能力。

然而，当前 TTA 的应用场景仍存在较大局限性，主要集中在单模态任务中，如识别、分割等领域。

近日，四川大学 XLearning 团队将 TTA 拓展至跨模态检索任务中，有效缓解了查询偏移（Query Shift）挑战的负面影响，有望推动 Inference time compute 向跨模态应用发展。

目前，该论文已被机器学习国际顶会 ICLR 2025 接收并评选为 Spotlight（入选比例 5.1%）。

论文题目：Test-time Adaptation for Cross-modal Retrieval with Query Shift
论文地址：https://openreview.net/forum?id=BmG88rONaU
项目地址：https://hbinli.github.io/TCR/

背景与挑战

跨模态检索旨在通过构建多模态共同空间来关联不同模态的数据，在搜索引擎、推荐系统等领域具有重要的应用价值。如图 1 (a) 所示，现有方法通常基于预训练模型来构建共同空间，并假设推理阶段的查询数据与训练数据分布一致。然而，如图 1 (b) 所示，在现实场景中，用户的查询往往具有高度个性化的特点，甚至可能涉及不常见的需求，导致查询偏移（Query Shift）挑战，即模型推理时查询数据与源域数据的分布显著不同。

图 1：(a) 主流范式：利用预训练模型 Zero-shot 检索或者 Fine-tune 后检索。(b) 导致查询偏移的原因：难以对数据稀缺的领域进行微调；即使微调模型，也会面临 “众口难调” 的问题。(c) 观察：查询偏移会降低模态内的均匀性和增大模态间的差异。

如图 1 (c) 所示，本文观察到，查询偏移不仅会破坏查询模态的均匀性（Modality Uniformity），使得模型难以区分多样化的查询，还会增大查询模态与候选模态间的差异（Modality Gap），破坏预训练模型构建的跨模态对齐关系。这两点都会导致预训练模型在推理阶段的性能急剧下降。

尽管 TTA 作为能够实时应对分布偏移的范式已取得显著成功，但现有方法仍无法有效应对查询偏移挑战。一方面，当前 TTA 范式面向单模态任务设计，无法有效应对查询偏移对模态内分布和模态间对齐关系的影响。另一方面，现有 TTA 方法主要应用于识别任务，无法应对检索任务中的高噪声现象，即候选项远大于类别数量会导致更大的错误几率。

主要贡献

针对上述挑战，本文提出了 TCR，贡献如下：

从模态内分布和模态间差异两个层面，揭示了查询偏移导致检索性能下降的根本原因。
将 TTA 范式扩展至跨模态检索领域，通过调整模态内分布、模态间差异以及缓解检索过程中的高噪声现象，实现查询偏移下的鲁棒跨模态检索。
为跨模态检索 TTA 建立了统一的基准，涵盖 6 个广泛应用的数据集和 130 种风格各异、程度不同的模态损坏场景，支持包括 BLIP [2]、CLIP [3] 等主流预训练模型。

观察与方法

本文通过一系列的分析实验和方法设计，深入探究了查询偏移对公共空间的负面影响以及造成的高噪声现象，具体如下：

图 2：TCR 的框架图

1）挑战一：查询偏移对模态内和模态间的负面影响

为了进一步探究查询偏移对公共空间的负面影响，本文以一种 Untrain 的方式进行量化实验，即对推理阶段的数据特征如下变换：

其中，Q 和 G 分别代表查询模态与候选模态，

代表查询模态的第 i 个样本，

和

分别代表查询模态的样本中心。换句话说，通过放缩样本离中心的距离，调整模态内分布的均匀性；通过对查询模态的样本进行位移，控制两个模态之间的差异。实验结论如下：

如图 3（a），当增大模态内均匀性（

）和降低模态间差异（

）时，检索性能有所提升，反之不然。正如 [4] 中讨论的，过度消除模态间差异不会改善甚至会降低模型性能。本文进一步观察到当降低模态间差异至源域的 Modality Gap 附近时，能够借助预训练模型构建的良好跨模态关系，保障模型性能。

图 3：模态内均匀性与模态间差异的观察

基于上述观察，本文提出了如下损失：

模态内分布约束。让当前查询远离查询模态的样本中心，从而显式增大模态内均匀性：

其中，B代表当前批次。

模态间差异约束。对齐目标域和源域的模态间差异：

其中，

代表推理时的模态间差异，

代表预估的源域模态间差异。

如图 4 所示，本文提出的 TCR 不仅增大了模态内均匀性，而且降低了模态间差异，进而提升了跨模态检索性能。

图 4：TTA 前后的特征分布

2）挑战二：查询偏移造成的高噪声现象

过去的 TTA 方法依赖熵最小化范式，且主要应用于分类任务。尽管可以通过将检索视为分类任务，进而使用熵最小化，但检索任务中候选项远大于类别的数量，直接应用该范式会导致模型欠拟合。针对此，本文提出查询预测优化如下：

其中，

代表最近邻筛选操作。该模块不仅能够排除不相关的候选项，而且排除的候选项能够避免对正确候选的大海捞针，从而避免模型欠拟合。如图 5 所示，使用查询预测优化（Ref.）能够显著提升 TTA 的稳定性。

图 5：温度系数的消融实验

尽管上述优化缓解了欠拟合现象，但是查询偏移仍然会导致大量的噪声预测。针对此，本文提出噪声鲁棒学习：

其中，

代表查询预测的熵，

代表自适应阈值。噪声鲁棒学习不仅通过自适应阈值来过滤高熵的预测，还为低熵的预测分配更高的权重，进而实现对噪声预测的鲁棒性。

基准与实验

为了更好地研究查询偏移对跨模态检索任务的影响，本文提出以下两中评估方法：

仅查询偏移：只有查询模态的分布与源域数据不同。依据 [5]，在 COCO [6] 和 Flickr [7] 数据集上分别引入了 16 种图像损坏和 15 种文本损坏（按照不同严重程度共计 130 种损坏）。为了保证仅查询偏移，先让模型在对应数据集上进行微调，随后将微调后的模型应用于仅有查询偏移的推理数据集中。
查询 - 候选偏移：查询模态和候选模态的分布都与源域数据不同。为了保证查询 - 候选偏移，本文直接将预训练模型应用于各领域的推理数据中，包括电商领域的 Fashion-Gen [8]、ReID 领域的 CUHK-PEDES [9] 和 ICFG-PEDES [10]、自然图像领域的 Nocaps [11] 等。

部分实验结果如下：

1）仅查询偏移

表 1：仅查询偏移下的性能比较

2）查询 - 候选偏移

表 3、4：查询 - 候选偏移下的性能比较

总结与展望

本文提出的 TCR 从模态内分布和模态间差异两个层面揭示了查询偏移对跨模态检索性能的负面影响，并进一步构建了跨模态检索 TTA 基准，为后续研究提供了实验观察和评估体系。

展望未来，随着基础模型的快速发展，TTA 有望在更复杂的跨模态场景（如 VQA 等）中发挥关键作用，推动基础模型从 "静态预训练" 迈向 "推理自适应" 的发展。

参考文献：

[1] Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, et al. Trading inference-time compute for adversarial robustness. arXiv preprint arXiv:2501.18841, 2025.

[2] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pretraining for unified vision-language understanding and generation. In ICML, 2022.

[3] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021.

[4] Victor Weixin Liang, Yuhui Zhang, Yongchan Kwon, Serena Yeung, and James Y Zou. Mind the gap: Understanding the modality gap in multi-modal contrastive representation learning. In NeurIPS, 2022.

[5] Jielin Qiu, Yi Zhu, Xingjian Shi, Florian Wenzel, Zhiqiang Tang, Ding Zhao, Bo Li, and Mu Li. Benchmarking robustness of multimodal image-text models under distribution shift. Journal of Data-centric Machine Learning Research, 2023.

[6] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ´ ECCV, 2014.

[7] Bryan A Plummer, Liwei Wang, Chris M Cervantes, Juan C Caicedo, Julia Hockenmaier, and Svetlana Lazebnik. Flickr30k entities: Collecting region-to-phrase correspondences for richer imageto-sentence models. In ICCV, 2015.

[8] Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, and Chris Pal. Fashion-gen: The generative fashion dataset and challenge. arXiv preprint arXiv:1806.08317, 2018.

[9] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, and Xiaogang Wang. Person search with natural language description. In CVPR, 2017.

[10] Zefeng Ding, Changxing Ding, Zhiyin Shao, and Dacheng Tao. Semantically self-aligned network for text-to-image part-aware person re-identification. arXiv:2107.12666, 2021.

[11] Harsh Agrawal, Karan Desai, Yufei Wang, Xinlei Chen, Rishabh Jain, Mark Johnson, Dhruv Batra, Devi Parikh, Stefan Lee, and Peter Anderson. Nocaps: Novel object captioning at scale. In CVPR, 2019.