(强烈推荐)王炸!李飞飞团队Agent AI史诗级综述【第九节】:智能体数据集与排行榜,一篇读懂评测标准!

为推动该领域的研究进展,我们针对多智能体游戏和智能体视觉语言任务,分别提出了两项基准测试。我们将发布两个新数据集(“CuisineWorld” 和 “VideoAnalytica”)以及一组基准模型,以此鼓励参与者探索新模型与新系统,并在我们的排行榜测试集上提交其研究结果。

1.1 面向多智能体游戏的 “CuisineWorld” 数据集

“CuisineWorld” 是一款文本类游戏,设计灵感源自《胡闹厨房》(Overcooked!)。它为人工智能驱动的智能体提供了协作互动、协同游戏的平台。该数据集将用于测试多智能体系统的协作效率,助力研究人员深入了解大语言模型(LLMs)及其他系统在动态场景中的协同表现。具体而言,该数据集将重点关注两大核心能力:一是智能体对目标任务的理解程度,二是智能体之间的协同配合能力。

该数据集支持两种模式:集中式调度模式与分布式模式。参与者可选择任一游戏模式,并将其结果提交至我们的排行榜。

1.1.1 基准测试

在本次竞赛中,我们将发布一个名为 “CuisineWorld 基准测试” 的基准方案。该方案包含一个文本界面与两类交互接口,其中文本界面支持可扩展的任务定义文件,交互接口则分别用于多智能体交互和人机交互。

我们设计了游戏交互任务,其核心目标是生成相关且合适的多智能体协作策略,以实现协作效率最大化。我们将采用 “协作效率得分(CoS)” 这一提出的评估指标,对协作效率进行量化评估。

“CuisineWorld” 数据集由微软(Microsoft)、加州大学洛杉矶分校(UCLA)与斯坦福大学(Stanford University)联合收集。本次竞赛的目的有二:一是探究各类现有及新型的 “基于事实的大语言模型(grounded-LLM)” 与交互技术在该基准测试中的表现;二是为多智能体游戏基础架构相关任务建立可靠的基准模型。

CuisineWorld 数据集包含以下内容:

  • 一系列定义明确的多智能体协作任务
  • 一套用于简化智能体交互流程的 API 系统
  • 一个自动化评估系统

1.1.2 任务

  • 我们将向研究社区提供一个名为 “微软 MindAgent” 的数据集及相关基准测试,并同步发布 “CuisineWorld” 数据集。
  • 我们将提供基准测试方案,用于对提交的 “MindAgent” 算法进行评估与排名。同时,我们还将提供基于主流基础架构生成的基准测试结果。

1.1.3 评估指标与评判方式

多智能体协作效率的优劣由全新的 “协作效率得分(cos)” 自动评估指标判定,该指标源自 MindAgent(Gong 等人,2023a)的相关研究。我们的评估指标最终得分,通过计算多智能体系统在所有任务上的协作效率评估指标平均值得出。

此外,还将邀请人工评估者对单个响应进行评分,并从用户与智能体交互的参与度、覆盖广度及整体质量三个维度,给出主观性评判意见。

1.1.4 评估流程

  • 自动评估

    我们计划在数据集发布日(具体日期待定,TBA)启动排行榜。已注册的参与者需针对 “CuisineWorld” 数据集(为该排行榜公开发布的数据集)相关任务提交结果,结果提交通道将在截止日(具体日期待定,TBA)关闭。各团队需提交其在测试集上生成的结果,以便通过 “cos” 指标进行自动评估。

  • 排行榜人工评估

    参与排行榜的团队需提交一份由本地评估脚本生成的提交文件。我们将使用 evalAI 系统核查该提交文件,对于排名靠前的参赛团队,还可能会重新运行其代码。因此,各团队还需提交代码及一份说明代码运行方式的 Readme 文件。人工评估将由主办方团队执行。

  • 获胜者公布

    我们将公布获胜者名单,并在排行榜上公示所有提交结果的最终评分。

1.2 音视频 – 语言预训练数据集

我们提出了 “VideoAnalytica”,一个用于分析型视频演示理解的全新基准测试。该基准测试聚焦于借助视频演示作为辅助手段,以更好地理解长时长教学视频中所蕴含的复杂、高阶推理逻辑。

其核心目标是评估视频语言模型的认知推理能力,推动模型超越单纯的识别任务与基础理解层面,实现对视频更深入、更细致的理解。关键在于,VideoAnalytica 强调多模态(如音频、视频、语言)的融合,同时注重模型运用领域特定知识,对视频中呈现的信息进行情境化解读与阐释的能力。

具体而言,VideoAnalytica 包含两大核心任务:

  1. 视频文本检索

    该任务要求从教学视频中精准检索出相关文本。其难点在于区分相关与无关信息,这需要模型深度理解视频内容,并通过分析演示过程来检索到正确的查询结果。为进一步提升任务复杂度,我们在数据集中加入了由大语言模型生成的 “难负例”(hard negatives)。我们会通过人工验证筛选这些生成的负例,剔除那些会导致任务无效或不公平的样本(例如负例本身具备有效性的情况)。

  2. 视频辅助信息问答

    该任务要求模型基于从视频中提取的信息回答问题。任务重点在于处理需要分析推理能力、且需深度理解视频演示内容的复杂问题。

为推动音视频 – 语言智能体在分析型视频理解领域的发展

我们针对 VideoAnalytica 中的两项任务,推出了一个基准测试排行榜。

  • 参与排行榜的团队需提交解决方案以供评估。评估将基于模型在这两项任务上的表现展开,最终结果将在排行榜上公示。参与者需提交代码,并附上对其技术方案与方法的详细说明。
  • 伦理考量:该排行榜聚焦于视频内容的理解与解读,而相关技术未来可能被应用于监控或其他侵犯隐私的场景。因此,必须重视该技术涉及的伦理问题及被滥用的潜在风险。我们鼓励参与者在提交方案时充分考虑这些方面,共同推动人工智能的伦理化应用。

如何高效转型Al大模型领域?

作为一名在一线互联网行业奋斗多年的老兵,我深知持续学习和进步的重要性,尤其是在复杂且深入的Al大模型开发领域。为什么精准学习如此关键?

  • 系统的技术路线图:帮助你从入门到精通,明确所需掌握的知识点。
  • 高效有序的学习路径:避免无效学习,节省时间,提升效率。
  • 完整的知识体系:建立系统的知识框架,为职业发展打下坚实基础。

AI大模型从业者的核心竞争力

  • 持续学习能力:Al技术日新月异,保持学习是关键。
  • 跨领域思维:Al大模型需要结合业务场景,具备跨领域思考能力的从业者更受欢迎。
  • 解决问题的能力:AI大模型的应用需要解决实际问题,你的编程经验将大放异彩。

以前总有人问我说:老师能不能帮我预测预测将来的风口在哪里?

现在没什么可说了,一定是Al;我们国家已经提出来:算力即国力!

未来已来,大模型在未来必然走向人类的生活中,无论你是前端,后端还是数据分析,都可以在这个领域上来,我还是那句话,在大语言AI模型时代,只要你有想法,你就有结果!只要你愿意去学习,你就能卷动的过别人!

现在,你需要的只是一份清晰的转型计划和一群志同道合的伙伴。作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

### 李飞飞AI代理方面的工作概述 李飞飞作为斯坦福大学教授及计算机视觉领域的权威学者,其研究工作涵盖了广泛的机器学习应用领域。尽管主要贡献集中在图像识别和计算机视觉上,但这些技术的发展对于构建更智能的AI代理至关重要。 #### 计算机视觉的进步推动AI代理发展 李飞飞领导下的ImageNet项目极大地促进了卷积神经网络(CNNs)的研究和发展[^1]。这一进步不仅限于静态图片分析,也为动态环境感知提供了基础支持,使得AI代理能够更好地理解周围世界并作出反应。 #### 多模态交互能力增强 除了视觉输入外,现代AI代理还需要处理来自不同感官的信息流。李飞飞团队探索了多模态融合的方法论,即如何有效地整合视听觉等多种类型的信号来提升机器人或其他形式的人工智能系统的认知水平[^2]。这种跨学科的努力有助于创建更加自然流畅的人机互动体验。 #### 社会影响考量纳入模型设计 值得注意的是,在推进技术创新的同时,李飞飞也强调伦理和社会责任的重要性。这体现在她倡导将公平性、透明度等因素融入到AI系统的设计原则之中,从而确保这类先进技术能造福全人类而非加剧社会不平等现象[^3]。 ```python # Python代码示例:使用预训练CNN提取特征向量 from tensorflow.keras.applications import VGG16 model = VGG16(weights='imagenet', include_top=False) def extract_features(image_path): img = load_img(image_path, target_size=(224, 224)) x = img_to_array(img) x = np.expand_dims(x, axis=0) x = preprocess_input(x) features = model.predict(x) return features.flatten() ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值