（强烈推荐）王炸！李飞飞团队Agent AI史诗级综述【第九节】：智能体数据集与排行榜，一篇读懂评测标准！

原创于 2025-11-26 15:17:10 发布 · 436 阅读

CC 4.0 BY-SA版权

文章标签：

为推动该领域的研究进展，我们针对多智能体游戏和智能体视觉语言任务，分别提出了两项基准测试。我们将发布两个新数据集（“CuisineWorld” 和 “VideoAnalytica”）以及一组基准模型，以此鼓励参与者探索新模型与新系统，并在我们的排行榜测试集上提交其研究结果。

1.1 面向多智能体游戏的 “CuisineWorld” 数据集

“CuisineWorld” 是一款文本类游戏，设计灵感源自《胡闹厨房》（Overcooked!）。它为人工智能驱动的智能体提供了协作互动、协同游戏的平台。该数据集将用于测试多智能体系统的协作效率，助力研究人员深入了解大语言模型（LLMs）及其他系统在动态场景中的协同表现。具体而言，该数据集将重点关注两大核心能力：一是智能体对目标任务的理解程度，二是智能体之间的协同配合能力。

该数据集支持两种模式：集中式调度模式与分布式模式。参与者可选择任一游戏模式，并将其结果提交至我们的排行榜。

1.1.1 基准测试

在本次竞赛中，我们将发布一个名为 “CuisineWorld 基准测试” 的基准方案。该方案包含一个文本界面与两类交互接口，其中文本界面支持可扩展的任务定义文件，交互接口则分别用于多智能体交互和人机交互。

我们设计了游戏交互任务，其核心目标是生成相关且合适的多智能体协作策略，以实现协作效率最大化。我们将采用 “协作效率得分（CoS）” 这一提出的评估指标，对协作效率进行量化评估。

“CuisineWorld” 数据集由微软（Microsoft）、加州大学洛杉矶分校（UCLA）与斯坦福大学（Stanford University）联合收集。本次竞赛的目的有二：一是探究各类现有及新型的 “基于事实的大语言模型（grounded-LLM）” 与交互技术在该基准测试中的表现；二是为多智能体游戏基础架构相关任务建立可靠的基准模型。

CuisineWorld 数据集包含以下内容：

一系列定义明确的多智能体协作任务
一套用于简化智能体交互流程的 API 系统
一个自动化评估系统

1.1.2 任务

我们将向研究社区提供一个名为 “微软 MindAgent” 的数据集及相关基准测试，并同步发布 “CuisineWorld” 数据集。
我们将提供基准测试方案，用于对提交的 “MindAgent” 算法进行评估与排名。同时，我们还将提供基于主流基础架构生成的基准测试结果。

1.1.3 评估指标与评判方式

多智能体协作效率的优劣由全新的 “协作效率得分（cos）” 自动评估指标判定，该指标源自 MindAgent（Gong 等人，2023a）的相关研究。我们的评估指标最终得分，通过计算多智能体系统在所有任务上的协作效率评估指标平均值得出。

此外，还将邀请人工评估者对单个响应进行评分，并从用户与智能体交互的参与度、覆盖广度及整体质量三个维度，给出主观性评判意见。

1.1.4 评估流程

自动评估

我们计划在数据集发布日（具体日期待定，TBA）启动排行榜。已注册的参与者需针对 “CuisineWorld” 数据集（为该排行榜公开发布的数据集）相关任务提交结果，结果提交通道将在截止日（具体日期待定，TBA）关闭。各团队需提交其在测试集上生成的结果，以便通过 “cos” 指标进行自动评估。
排行榜人工评估

参与排行榜的团队需提交一份由本地评估脚本生成的提交文件。我们将使用 evalAI 系统核查该提交文件，对于排名靠前的参赛团队，还可能会重新运行其代码。因此，各团队还需提交代码及一份说明代码运行方式的 Readme 文件。人工评估将由主办方团队执行。
获胜者公布

我们将公布获胜者名单，并在排行榜上公示所有提交结果的最终评分。

1.2 音视频 – 语言预训练数据集

我们提出了 “VideoAnalytica”，一个用于分析型视频演示理解的全新基准测试。该基准测试聚焦于借助视频演示作为辅助手段，以更好地理解长时长教学视频中所蕴含的复杂、高阶推理逻辑。

其核心目标是评估视频语言模型的认知推理能力，推动模型超越单纯的识别任务与基础理解层面，实现对视频更深入、更细致的理解。关键在于，VideoAnalytica 强调多模态（如音频、视频、语言）的融合，同时注重模型运用领域特定知识，对视频中呈现的信息进行情境化解读与阐释的能力。

具体而言，VideoAnalytica 包含两大核心任务：

视频文本检索

该任务要求从教学视频中精准检索出相关文本。其难点在于区分相关与无关信息，这需要模型深度理解视频内容，并通过分析演示过程来检索到正确的查询结果。为进一步提升任务复杂度，我们在数据集中加入了由大语言模型生成的 “难负例”（hard negatives）。我们会通过人工验证筛选这些生成的负例，剔除那些会导致任务无效或不公平的样本（例如负例本身具备有效性的情况）。
视频辅助信息问答

该任务要求模型基于从视频中提取的信息回答问题。任务重点在于处理需要分析推理能力、且需深度理解视频演示内容的复杂问题。

为推动音视频 – 语言智能体在分析型视频理解领域的发展

我们针对 VideoAnalytica 中的两项任务，推出了一个基准测试排行榜。

参与排行榜的团队需提交解决方案以供评估。评估将基于模型在这两项任务上的表现展开，最终结果将在排行榜上公示。参与者需提交代码，并附上对其技术方案与方法的详细说明。
伦理考量：该排行榜聚焦于视频内容的理解与解读，而相关技术未来可能被应用于监控或其他侵犯隐私的场景。因此，必须重视该技术涉及的伦理问题及被滥用的潜在风险。我们鼓励参与者在提交方案时充分考虑这些方面，共同推动人工智能的伦理化应用。

如何高效转型Al大模型领域？

作为一名在一线互联网行业奋斗多年的老兵，我深知持续学习和进步的重要性，尤其是在复杂且深入的Al大模型开发领域。为什么精准学习如此关键？

系统的技术路线图：帮助你从入门到精通，明确所需掌握的知识点。
高效有序的学习路径：避免无效学习，节省时间，提升效率。
完整的知识体系：建立系统的知识框架，为职业发展打下坚实基础。

AI大模型从业者的核心竞争力

持续学习能力：Al技术日新月异，保持学习是关键。
跨领域思维：Al大模型需要结合业务场景，具备跨领域思考能力的从业者更受欢迎。
解决问题的能力：AI大模型的应用需要解决实际问题，你的编程经验将大放异彩。

以前总有人问我说：老师能不能帮我预测预测将来的风口在哪里？

现在没什么可说了，一定是Al；我们国家已经提出来：算力即国力！

未来已来，大模型在未来必然走向人类的生活中，无论你是前端，后端还是数据分析，都可以在这个领域上来，我还是那句话，在大语言AI模型时代，只要你有想法，你就有结果！只要你愿意去学习，你就能卷动的过别人！

现在，你需要的只是一份清晰的转型计划和一群志同道合的伙伴。作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】