我自己的原文哦~ https://blog.51cto.com/whaosoft/13159017
#AI智能体2小时击败人类
引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型
只用10%数据,训练2小时,就能打造出最强AI智能体!
最近,Verses团队在AI领域投下了一枚重磅炸弹,他们自研的Genius智能体,创造了一个几乎不可能的奇迹——
只用10%数据,训练2小时,就能打造出最强AI智能体!
在经典游戏Pong中,Genius智能体多次达到完美的20分,一举超越了苦练数天的其他AI,和顶尖的人类玩家。
更让人惊掉下巴的是,它的规模只有SOTA模型IRIS的4%(缩小了96%),直接在搭载M1芯片的MacBook上就能跑。
,时长03:06
Genius在「状态好」时,甚至能削电脑一个「秃头」
这一项目的灵感,来自一个四年前的实验——科学家们培养的「盘中大脑」,用5分钟学会了玩Pong游戏。
这启发了科学家们思考,如果能够模仿大脑的工作方式,是不是就能创造出更聪明、更高效的AI。
恰在2023年,这个大胆的想法,在Nature论文中得到了证实。
而现在,Verses团队正将这种生物学的智慧,转化为现实。
研究团队表示,这标志着首个超高效贝叶斯智能体在复杂多维度游戏环境中,实现通用解决方案的重要里程碑。
打造最强AI智能体,LLM并非良策
目前,所谓的AI智能体,大多数实际上只是在大模型基础上,搭建的简单架构。
正如苹果研究团队,在去年10月arXiv论文中,直指现有的LLM,并不具备真正的逻辑推理能力。
它们更像是在「记忆」训练数据中,所见过的推理步骤。
论文地址:https://arxiv.org/pdf/2410.05229
实际上,这种局限性严重制约了AI智能体的实际应用潜力。
即便是OpenAI推理模型o1,尽管代表着技术发展的重要里程碑,但其本质仍是将BBF/EfficientZero(强化学习)和 IRIS(Transformer)两种方法结合到CoT推理计算中。
这种方法虽有创新,但其仍未触及智能体进化的核心痛点。
那么,什么才是真正的突破口?
Verses团队认为答案是,认知引擎。Genius就像是智能体的认知引擎。
它不仅提供了包括认知、推理、规划、学习和决策在内的执行功能,更重要的是赋予了智能体真正的主动性、好奇心和选择能力。
其中,主动性正是当前基于LLM构建的智能体,普遍缺失的的特质。
我们现在已经掌握了一种全新的「仿生方法」来实现通用机器智能,这种方法比上述两种方法(即使是结合在一起)都要明显更好、更快、更经济。
博客地址:https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence
1张A100,训练2小时
为了与SOTA的机器学习技术进行客观对比,在这些初始测试中,研究者选择了基于模型的IRIS系统。
该系统基于2017年突破性的Transformer架构。这种方案能够最快速地完成部署,从而将精力集中在推进自身研究上,而不是复制他人的工作。
值得一提的是,在Atari 100K测试中表现最优的两个系统——EfficientZero和BBF,都采用了深度强化学习技术,这与Deepmind的AlphaZero、AlphaGo和AlphaFold所使用的方法一脉相承。
研究者在2小时内,用1万步游戏数据分别训练了Geniu和IRIS(记为10k/2h)。
他们将Genius 10k/2h的性能与IRIS进行了对比,后者使用相同的1万步数据,但训练时间为2天(记为10k/2d)。
同时,他们还将Genius 10k/2h的性能与使用完整10万步数据训练的BBF和EfficientZero的公开结果进行了比较。
性能评估采用人类标准化得分(HNS)来衡量,其中HNS 1.0代表人类水平的表现,具体而言,相当于人类玩家在2小时练习时间后(约等于10万个样本)在「Pong」游戏中对战电脑时获得的14.6分平均成绩。
训练时间和模型规模
基于多次游戏运行采样的定性结果
与Transformer和深度强化学习不同,Genius无需依赖强大的GPU进行训练。然而,为确保比较的公平性,所有测试均在AWS云平台上使用同一张英伟达A100 GPU进行。
值得注意的是,无论训练时长如何,IRIS训练后的模型包含800万个参数,而Genius仅需35万个参数,模型体积减少了96%。
Pong游戏的定性分析
在Pong游戏中,IRIS 10k/2h的只会在角落里「抽搐」,而IRIS 10k/2d展现出一定的游戏能力,HNS在0.0到0.3之间。
相比之下,Genius在2小时1万步训练后(10k/2h),就能达到超过HNS 1.0的水平,并在多次测试中获得20分满分。(划到最右即可看到Genius如何从0比6落后一路实现反超)
从左到右滑动:IRIS 10k/2h,IRIS 10k/2d,Genius 10k/2h
下图展示了IRIS和Genius在各自训练条件下所能达到的最高HNS。
需要说明的是,Genius的得分仅为初步测试结果,尚未经过优化
鉴于IRIS 10k/2h未能展现有效的游戏能力,研究者主要展示了IRIS 10k/2d和Genius与电脑对战的质性测试样例。
这局比赛中,IRIS对阵电脑时以6:20落败,而Genius则以20:6的优势战胜了电脑对手。
下面这段视频,展示了Genius在学习「Pong」游戏过程中,在渐进式在线学习方面的卓越表现。
在1万步训练过程中,它依次取得了20:0、20:0、20:1、20:10、14:15的对战成绩。
特别是在第五局比赛中,当训练进行到接近9,000步时,尽管电脑以14:3大幅领先,但Genius随后展现出显著的学习能力,开始持续得分,直至训练步数耗尽。
,时长01:36
,时长01:36
Boxing游戏定性分析
在「Boxing」拳击游戏中,玩家控制白色角色,通过击打黑色对手角色来获取得分。
可以看到,只经过2小时训练的IRIS,开局就被电脑各种完虐;而在经过2天的训练之后,基本上可以和电脑「55开」了。
相比之下,Genius几乎从一直就处于领先,并在最后以86比63赢得了比赛。
从左到右滑动:IRIS 10k/2h,IRIS 10k/2d,Genius 10k/2h
Freeway游戏定性分析
在Freeway游戏测试中,玩家需要控制小鸡穿过马路,同时避开来自不同方向、以不同速度行驶的汽车。
测试结果显示,IRIS 10k/2h和IRIS 10k/2d模型均表现出随机性行为,始终未能成功穿越马路。
而Genius则展现出对游戏对象和动态系统的深入理解,能够持续且成功地在复杂车流中进行穿梭。
从左到右滑动:IRIS 10k/2h,IRIS 10k/2d,Genius 10k/2h
当然研究者也强调,虽然Atari 100k/10k、ARC-AGI能提供参考指标,但目前还没有一个单一的测试,能全面衡量AGI在认知、物理、社交和情感智能等各个维度上的表现。
同时,也需要警惕模型可能出现的过拟合现象,即为了在特定基准测试中取得高分而进行过度优化。这种情况下,就并不能说明模型的泛化能力、效率或在现实应用场景中的适用性。
因此,需要通过多样化的测试来衡量给定模型架构的适用性、可靠性、适应性、可持续性、可解释性、可扩展性以及其他能力。
怎么做到的?
之前Atari 100k挑战排行榜上的SOTA都是以数据为中心,计算复杂度很高的方法,如Transformer、神经网络、深度学习和强化学习。
然而,这些基于深度学习和大模型的AI系统都存在一个共同的弱点:它们大多是通过工程技术手段构建的,缺乏对智能本质的深刻理解。
Genius并非仅仅是对以往SOTA的渐进式改进。研究者应用了Karl Friston教授的自由能量原理、主动推断框架和贝叶斯推理架构。
Karl Friston近年来致力于自由能原理与主动推理的研究,该理论被认为是「自达尔文自然选择理论后最包罗万象的思想」,试图从物理、生物和心智的角度提供智能体感知和行动的统一规律,从第一性原理出发解释智能体更新认知、探索和改变世界的机制,对强化学习世界模型、通用AI等前沿方向具有重要启发意义。
自由能原理认为,所有可变的量,只要作为系统的一部分,都会为最小化自由能而变化。
主动推理框架基于自由能原理提供了一个建模感知、学习和决策的统一框架。将感知和行动都看作是推断的问题。
其核心观点是:生物体认知与行为底层都遵循着相同的规则,即感官观测的「意外」最小化。在这里,「意外」被用于衡量智能体当前的感官观测与偏好的感官观测之间的差异。
主动推理路线图
这些方法深深植根于生物智能背后的神经科学,它将智能系统视为预测引擎,而非仅仅被动式数据处理机器,这些系统能够通过测量预期与感知数据之间的差异来实现高效学习。
其核心目标是持续降低对环境的不确定性,具体方式是学习理解所观察现象背后隐藏的因果动态关系,从而更好地预测结果并选择最优行动。
主动推理的框架概览
这条运用神经科学方法和生物学可行技术来解决Atari问题的另类途径始于2022年。
当时,Friston教授带领Cortical Labs开发了一种「微型人类大脑」,并命名为DishBrain(培养皿大脑),这个「大脑」包含了大约80万个脑细胞,仅仅用了5分钟就学会了打「乒乓球」的游戏,而AI学会这一游戏需要花90分钟时间。
这一研究证明了神经元确实应用了自由能量原理并通过主动推断进行运作,并且即使是培养皿中的脑细胞也可以表现出内在的智能,并随着时间的推移改变行为。
论文地址:https://www.sciencedirect.com/science/article/pii/S0896627322008066
2023年,一篇发表在《自然》上的论文通过体外培养的大鼠皮层神经元网络进行因果推理,也证实了自由能原理的定量预测。
到了2024年初,研究者则更进一步,成功将这些在Dishbrain中展示的主动推断机制纯软件化地应用于乒乓球游戏。
主动推理及其对贝叶斯模型和算法的应用代表了一种根本不同的AI架构,从设计上讲,它比SOTA的ML方法更有效和高效。
如今Genius实现的,就是研究者此前开创的贝叶斯推理架构,它不仅提高了样本效率和持续学习能力,还能优雅地将先验知识与新数据结合。
这一突破带来了全新的先进机器智能方法,具有内在的可靠性、可解释性、可持续性、灵活性和可扩展性。
在统计学、机器学习和AI领域,贝叶斯推理因其在不确定性下的原则性概率推理方法而被视为一个强大而优雅的框架,但迄今为止,其巨大的计算需求一直限制着它在玩具问题之外的应用。
而Genius则代表了对这一障碍的超越,并提供了一个通用架构,使我们能够在此基础上构建众多高效的智能体,让它们能够学习并发展专业技能。
在不久的未来,也许我们再回首,就会发现这不仅标志着贝叶斯革命的开始,更代表着机器智能发展的自然方向。
如下图所示,虚线和渐变轨迹展现了智能体对已识别对象轨迹的概率预测——可能是球、高速行驶的汽车,或是拳击手的刺拳。
这些不确定性的量化,结合置信度的计算,首次展示了智能体的预测和决策过程如何实现可解释性。
这种系统的透明度和可审计性,与ML中不透明、难以解释且无法量化的内部处理过程形成了鲜明对比。
Genius智能体在三个经典游戏中的面向对象预测能力:图中的渐变点展示了智能体对游戏中物体当前位置及其未来轨迹的预测推理
从AlphaGo到Atari,AI智能体新标准
现代,游戏已成为衡量机器智能的有效基准。
1996年,IBM的深蓝击败了国际象棋大师加里·卡斯帕罗夫时,整个世界都为之震撼。
这是一个具有明确规则和离散状态空间的游戏。而深蓝的成功主要依赖于暴力计算,通过评估数百万种可能走法做出决策。
2016年,谷歌AlphaGo在围棋比赛中击败了李世石,成为另一个重要的里程碑。
要知道,围棋的可能棋盘配置数量比宇宙中的原子数量还要多。
AlphaGo展示了深度强化学习和蒙特卡洛树搜索的强大能力,标志着AI从暴力计算向具备模式识别和战略规划能力的重大跨越。
虽然AI在棋类游戏中取得了里程碑式的成就,但这些突破也仅局限于「静态规则」的世界。
它们并不能模拟现实世界中的复杂动态,而现实世界中变化是持续的,需要适应不断变化的条件甚至变化的规则。
由此,电子游戏已经成为测试智能的新标准,因为它们提供了受控的环境,其规则需要通过互动来学习,而成功的游戏过程需要战略规划。
Atari游戏已成为评估AI智能体建模和驾驭复杂动态系统能力的最佳评估标准。
2013年,DeepMind发布了一篇论文,阐述基于强化学习的模型DQN如何能以超越人类水平玩Atari游戏,但前提是需要数亿次环境交互来完成训练。
论文地址:https://arxiv.org/pdf/1312.5602
2020年,DeepMind发表了另一篇基于DRL的Agent57的论文,该系统在57个Atari游戏中超越了人类基准水平,但它需要训练近800亿帧。
论文地址:https://arxiv.org/pdf/2003.13350
为了推动更高效的解决方案,Atari 100k挑战赛应运而生。这一挑战将训练交互限制在100k次内,相当于2小时的游戏训练,就能获得类似的游戏能力。
直到2024年初,Verses团队创下新纪录——
展现了由Genius驱动的AI智能体如何能在Atari 100k挑战赛中,仅用原来1/10训练数据,匹配或超越最先进方法的表现。
不仅如此,它还显著减少了计算量,同时生成的模型大小仅为基于DRL或Transformer构建的顶级模型的一小部分。
如果用汽车来打比方,DQN和Agent57就像是耗油的悍马,Atari 100k的方法就像是节能的普锐斯,而Atari 10k就像是特斯拉,代表着一种高效的革新架构。
为什么Atari 100k很重要
Atari 100k基准测试的重要性,体现在哪里?
它旨在测试智能体在有限训练数据条件,下在三个关键领域的表现能力:交互性、泛化性和效率。
1. 交互性
交互性衡量了智能体在动态环境中学习和适应的能力,在这种环境中,智能体的行为直接影响最终结果。
在Atari游戏中,智能体必须实时行动、响应反馈并调整其行为以取得成功。这种能力正好反映了现实世界中适应性至关重要的场景。
2. 泛化性
泛化性则评估了智能体将学习到的策略,应用于具有不同规则和挑战的各种游戏的能力。
也就是确保智能体不会过拟合单一任务,而是能够在各种不同领域中都表现出色,展现真正的适应性。
3. 效率
效率主要关注智能体在有限数据和计算资源条件下快速学习有效策略的能力。
100k步骤的限制突显了高效学习的重要性——这对于现实世界中数据通常稀缺的应用场景来说尤为重要。
任何开发者都可以编写自定义程序,来解决游戏和逻辑谜题。而Deepmind的原始DQ 方法和Atari 100k都已证明,通过足够的人工干预和大量的数据与计算资源,传统机器学习可以被调整和拟合,以掌握像雅达利这样的游戏。
而Genius的亮点在于,它能够自主学习如何玩游戏,而且仅使用了Atari 100k 10%的数据量!
这,就让它跟现实世界中的问题更相关了。因为在现实场景中,数据往往是稀疏的、不完整的、带有噪声的,而且会实时变化。
广泛的商业应用前景
近来,行业的动态值得令人深思。
微软宣布计划重启三哩岛核电站,以支持其AI数据中心的发展规划
Meta计划在2024年底前部署相当于600,000块H100的算力(每块售价3万美元)
据估计,OpenAI o3单次任务的成本可能超过1,000美元
撇开不可靠性和不可解释性不谈,训练和运行这些超大规模过度参数化(overparameterized)模型的财务成本、能源消耗和碳排放,不仅在经济和环境上不可持续,更与生物智能的运作方式背道而驰。
要知道,人类大脑仅需要20瓦的能量就能完成复杂的认知任务,相当于一个普通灯泡的功率。
更令业界担忧的是,高质量训练数据正在耗尽。而使用合成数据作为替代方案,可能导致「模型崩溃」(model collapse),让模型性能逐渐退化。
模型崩溃:这组图像展示了当AI模型仅使用合成数据进行训练时可能出现的问题。从左到右可以观察到图像质量的持续劣化过程,清晰地展示了模型性能逐步降低的现象
构建有效(可靠)、可信(可解释)和高效(可持续)的 智能体,如果能够通过单一的可泛化(灵活)架构来实现,其影响可能将达到改变人类文明进程的规模。
未来AI发展方向,或许不应该是由少数科技巨头控制的几个庞大的模型,而是部署数万亿个低成本、超高效、专业化的自组织智能体。
它们可以在边缘计算端和云端协同运作,通过协调与合作,在从个体到集体的各个层面都遵循着一个共同的、表面上看似简单的内在目标——追求理解,即降低不确定性。
这种新型智能体特别适合处理那些具有持续变化、数据资源受限,同时要求更智能、更安全、更可持续的问题领域。
比如,在金融、医疗、风险分析、自动驾驶、机器人技术等多个领域,应用前景广阔。
这场关于AI未来的游戏,才刚刚开始。
参考资料:
https://www.verses.ai/blog/mastering-atari-games-with-natural-intelligence
#刚刚,特朗普联手奥特曼,狂砸5000亿美元启动AI「星际之门」
「如果以占 GDP 的比例来衡量,这一规模与阿波罗(登月)计划和曼哈顿(原子弹)计划相当。」
刚刚,在白宫新闻发布会上,特朗普和OpenAI CEO Sam Altman、软银CEO孙正义等人联合宣布了一个名为「星际之门」(Stargate Project)的人工智能项目。
图源:the Verge
星际之门是一家新成立的公司,计划在未来四年内投资 5000 亿美元,为 OpenAI 在美国建设新的人工智能基础设施。现在将立即投入 1000 亿美元。这一基础设施将确保美国在人工智能领域的领导地位,创造数十万个美国就业岗位,并为全球带来巨大的经济效益。
「星际之门」的名字可能取自同名科幻电影。在电影中,星际之门是一种圆环形的外星人设备。它允许人被远程传送到配对的宇宙级距离外的设备离去。
OpenAI 高级研究员 Noam Brown 评价说,「如果以占 GDP 的比例来衡量,这一规模与阿波罗(登月)计划和曼哈顿(原子弹)计划相当。」他还强调说,「这种规模的投资只有在科学论证被仔细审查,且人们相信它将会成功并带来彻底转变的时候才会发生。我同意现在正是合适的时机。」
星际之门项目的初始股权投资者包括软银(SoftBank)、OpenAI、甲骨文(Oracle)和 MGX。软银和 OpenAI 是星际之门项目的主要合作伙伴,软银负责财务责任,OpenAI 负责运营责任。孙正义(Masayoshi Son)将担任主席。
Arm、微软、英伟达、甲骨文和 OpenAI 是主要的初始技术合作伙伴。目前建设工作正在进行中,从得克萨斯州开始,他们正在评估美国各地的潜在场址以建设更多园区,同时他们正在敲定最终协议。
作为星际之门的一部分,甲骨文、英伟达和 OpenAI 将紧密合作,共同构建和运营这一计算系统。这一合作建立在 OpenAI 与英伟达自 2016 年以来的深度合作基础之上,同时也基于 OpenAI 与甲骨文之间较新的合作伙伴关系。
此外,这一项目也建立在 OpenAI 与微软现有合作的基础上。OpenAI 将继续增加对 Azure 的使用,同时与微软合作,利用这些额外的计算资源来训练领先的模型,并提供卓越的产品和服务。
所有人都期待继续构建和发展人工智能(AI)—— 特别是通用人工智能(AGI)—— 以造福全人类。他们相信,这一新举措是这一道路上的关键一步,并将使富有创造力的人们能够找到利用 AI 提升人类福祉的方法。
在官宣该计划的白宫新闻发布会上,Sam Altman 还发表了一段演讲:
在美国实现这一目标,我认为这将是这个时代最重要的事情。这里可以构建通用人工智能(AGI),创造数十万个就业机会,并在这里建立一个全新的产业,没有总统先生的支持,我们无法做到这一点。我很高兴我们能够实现这一目标。我认为这将是一个激动人心的项目,我们将能够实现现在所谈论的所有美好愿景。
非常感谢能够在美国实现这一目标。关于 AI 如何帮助我们解决各种问题,比如癌症研究和其他领域,还有许多问题需要探索。我认为我们可能会与一些领导者一起推动这一领域的进展。
但我相信,随着这项技术的进步,我们将看到疾病以前所未有的速度得到治愈。我们将惊讶于我们能够如此迅速地治愈各种癌症以及心脏病,并且这项技术将为提供高质量医疗保健的能力带来巨大影响,不仅降低成本,还能以极快的速度治愈疾病。我认为这将是这项技术所做的最重要的事情之一。
看到这个阵容和规模,不知道同样在建设超级数据中心,并且和 Sam Altman 有些不愉快经历的马斯克是什么感受。
参考链接:https://openai.com/index/announcing-the-stargate-project/
#语言之外,另一半的智能还有待实现
「除了语言,我们还有另外一半智能,这部分非常深刻,就是我们做事的能力。」
「在 AI 之间加一个 G 以强调其通用性,我是尊重这个想法的。从制造能够思考和帮助人们做出决策的机器的角度来看,AI 或 AGI 对我来说是同样的事情。」
「《龙猫》是我最喜欢的电影之一,这部电影虽然简单却又如此深刻。」
最近,斯坦福大学教授李飞飞接受了硅谷著名投资人 Reid Hoffman 和 Aria Finger 的联合播客专访。
,时长37:15
视频链接:https://www.youtube.com/watch?v=0jMgskLxw3s
在这场对话中,李飞飞主要探讨了以下主题:
ImageNet 的灵感源于难以避开模型的过拟合问题,李飞飞意识到与其苦心改进模型,不如用数据驱动。
探究智能的本质,李飞飞认为智能分为说话的能力和做事能力,与之对应的是语言智能和空间智能,语言是人类的语言,而 3D 是自然的语言。而拥有空间智能的 AI,将做到人类从未做到的事:真正地打破物理世界和数字世界的界限。
在 AI 发展中,需要尊重一些源自「旧石器时代」的核心原则:首先是人类的主体能动性,像「AI 将治愈癌症」这类把 AI 置于主语的表述,容易忽视人是使用技术的主体;二是重视人类的基本需求,包括对健康、生产力和社会认同的普遍追求。
对于人类和 AI 技术安全的关系,李飞飞认为首先要考虑的是,我们应该基于科学,而不是科幻。对于 AI 治理,精力应集中在应用层面设置护栏上,也就是人类受到影响的地方,而不是阻止上游开发。
李飞飞认为只有当拥有正面的生态系统时,才会有正面的 AI 未来,这需要服务于公众福祉的公共部门参与。其分为两种形式:一是推动基础研究和创新,从医疗到教育;二是人才,需要教育越来越多的年轻人和公众了解这项技术。
以下为访谈内容的文字记录:
ImageNet 的起源:人们都只关注模型,而不关注数据
主持人:是什么给了你 ImageNet 的想法?
李飞飞:很难确定具体的某一刻,但这个想法主要形成于 2006 年左右。当时我正在深入研究使用机器学习算法来理解图像中的物体。无论我怎么研究,都无法避开机器学习模型中过拟合这个数学概念。这种情况发生在模型复杂度与使用的数据不太匹配时,特别是当数据的复杂性和数量无法有效驱动模型时。
当然,并不是所有模型都是一样的。我们现在知道神经网络模型具有更高的容量和表示能力。撇开这些专业术语不谈,数据和模型之间确实存在相互作用。但我发现,人们都只关注模型,而不关注数据。这就是我产生洞见的时刻我们不能只关注模型,或者用错误的方式看待问题,我们需要关注数据,用数据来驱动模型。
当时我刚到普林斯顿担任教职,接触到了一个叫 WordNet 的项目。虽然 WordNet 与计算机视觉无关,但它提供了一种很好的组织世界概念的方式。我很喜欢这个名字,一件事接着一件事,ImageNet 就这样诞生了。因为我深信需要大数据和视觉世界的多样化表示,所以开始了这个项目。
解锁智能最重要的另一半:空间智能
主持人:从你 AI 职业生涯中期的 ImageNet 到现在的 World Labs,你能谈谈 World Labs 的理念是什么?你们正在构建什么?你正在建设的东西是我们要去哪里以及如何理解这一点的关键部分,无论是 World Labs 本身还是 AI 的趋势。
李飞飞:是的,这是我们喜欢讨论的话题技术将何去何从。在 ImageNet 之后,我一直在执着地思考一个问题:什么是智能?我们如何让机器产生智能?对我来说,这实际上可以归结为两个简单的方面。如果我们观察人类智能:
第一个方面是我们说话的能力 —— 我们使用语言交流作为工具来交谈、组织知识和沟通。但还有另外一半智能,这部分非常深刻,就是我们做事的能力。比如煎蛋卷、去远足、与朋友相处并享受彼此的陪伴这些都远远超出了我们所说的语言范畴。就像我们能够舒适地坐在对方面前,拿着啤酒罐聊天,这些都是智能的一部分。
这部分智能实际上植根于我们理解我们所生活的 3D 世界的能力感知它,并将其转化为一系列理解、推理和预测,使我们能够在其中行动。在我看来,这种能力被称为空间智能,这是像人类这样的智能生物所具有的基本能力,也就是处理 3D 空间的能力。
ImageNet 之所以诞生,是因为我在寻求为 2D 图像中的像素添加标签。对人类来说,2D 图像是 3D 世界的投影。所以你可以看到,这只是理解我们所生活的更完整的视觉世界的一小步,但这一小步很关键。因为无论是对人类、动物还是机器来说,理解和标记这些图像中的物体都是重要的第一步。
现在,过去了 15 年,我认为我们已经准备好迎接一个更大的挑战。这几乎是一个本垒打式的追求 —— 解锁智能最重要的另一半,也就是空间智能的问题。让空间智能特别有趣的是,它实际上有两个方面:一个是物理的 3D 世界,另一个是数字的 3D 世界。我们以前从未真正能够在两者之间生活,但现在空间智能可以成为一种统一的技术,既可以理解 3D 实体世界,也可以理解数字 3D 世界。
空间智能将如何改变物理世界和数字世界?
主持人:回想一下,如果回到 1880 年,马车和未铺砌的道路,那是一个完全不同的世界。但如果回到 1980 年,好吧,人们开的车不同了,但他们住在相同的建筑里,仍然在开车,现实世界的机制基本上是一样的。你认为这「另一半智能」会在未来几十年改变这一点吗?我们会看到实体世界发生像过去几年数字世界那样的巨大转变吗?
李飞飞:我认为会的。我认为现实和数字之间的界限将开始模糊。举个例子,我想象自己在高速公路上开车,如果爆胎了,尽管我是个技术专家,我可能还是会遇到困难。但如果我能戴上眼镜,或者只需要用手机对着爆胎的车,与潜在的应用程序协作,通过视觉引导或对话或两者的结合来指导我更换轮胎,这就是一个非常平凡的日常生活例子,真正打破了物理 3D 世界和数字 3D 世界的界限。这种技术赋能人类的景象,无论是更换轮胎还是进行心脏手术,对我来说都非常令人兴奋。
大语言模型和大世界模型有什么区别?
主持人:你说你经常使用大语言模型来学习,我觉得这很鼓舞人心。我的孩子们总是说「哦,我数学很好,不需要再学习了」,我可以告诉他们「看,李飞飞也在使用大语言模型学习」。我想你还有一些要说的。在谈到大世界模型与大语言模型时,你如何向人们解释这种区别?你认为这在未来会如何发展?
李飞飞:从根本上说,就像我说的,一个是关于说话,另一个是关于看和做事。所以它们是非常不同的模态。大语言模型的基本单位是字母或词,而在我们的世界模型中,基本单位是像素或体素。它们是非常不同的语言。我几乎觉得语言是人类的语言,而 3D 是自然的语言。我们真的想要达到这样一个点:AI 算法能让人们与像素世界互动,无论是虚拟的还是物理的。
旧石器时代的情感、中世纪的制度以及技术的作用
主持人:你的回答让我想起你引用过的社会生物学家爱德华・威尔逊的话:「我们有旧石器时代的情感,中世纪的制度,和神一样的技术,这非常危险。」考虑到你刚才谈到的关于推理、自然语言、人们的教育,你如何扭转这种局面?在 AI 时代,人类面临什么机遇?
李飞飞:我仍然相信这句话,正因如此,你和我还有我们的朋友才创立了以人为中心的 AI 研究所。如果要我反转这个局面,我会反过来说这句话:人类有能力创造上帝一样的技术,这样我们就能改善我们的中世纪制度,超越我们旧石器时代的情感,或者将这些情感引导到创造力、生产力和善意上来。
在 AI 的发展中,尊重人的主体能动性
主持人:在构建技术以帮助我们实现抱负方面,你认为关键是什么?是关注同理心?是以人为中心和互动的共生关系?在让技术和 AI 帮助我们实现更好的自我方面,你会把什么作为下一步?
李飞飞:我能理解为什么你同时主修人文科学,你身上体现了哲学和技术的结合。我同意,而且你知道,我们之前几乎把「旧石器时代」当作负面词使用,但它实际上不是负面词,它是一个很中性的词。人类的情感或者我们对自我的认识深深植根于进化,植根于我们的 DNA 中,我们无法改变这一点。世界之所以同时美丽又混乱,正是因为这个原因。
在思考技术与人类关系的未来时,我认为我们需要尊重这一点。我们需要尊重一些最基本的、真正的旧石器时代根源。技术发展需要尊重几个方面,我们越尊重这些,就会做得越好:
首先是尊重人类的主体能动性。我认为 AI 公共传播中的一个问题是,我们经常把 AI 作为句子的主语,好像我们在剥夺人类的主体能动性。比如说「AI 将治愈癌症」,我有时也会犯这个错误,但事实是人类将使用 AI 来治愈癌症,不是 AI 在治愈癌症,也不是 AI 将解决核聚变问题。事实是人类科学家和工程师将使用 AI 作为工具来解决核聚变。更危险的说法是「AI 将夺走你的工作」。我认为我们真的需要认识到,这项技术有更多机会创造机会和工作,赋能人类主体能动性,这是我关心的一个非常重要的第一性原理。
第二个重要的第一性原理是尊重每个人:每个人都想健康,都想有生产力,都想成为受人尊重的社会成员。无论我们如何发展或使用 AI,我们都不能忽视这一点。忽视这一点是危险的,是适得其反的。我认为仅这两点就对指导我们开发这项技术至关重要。
谈论这些深深植根于这样一个信念:任何技术、任何创新的意义都在于对人类有益。这就是人类文明的轨迹每次我们创造一个工具,我们都想用这个工具来做好事。当然,这是一把双刃剑,我们可能会误用工具,会有坏人使用工具。所以即使看到技术和工具的阴暗面,它也推动我们更加努力地让它变得更好,让它更以人为本。这确实是以人为本 AI 研究所的基本原则。在斯坦福,你和我还有我们的朋友都将 AI 视为如此强大的工具,它是一个文明性的工具,我们最好尽早围绕它建立一个框架,将人类和人类利益置于其中心。以人为中心的 AI 最关键的方面之一,也是我认为应该指导每个公司、每个开发者的,就是赋能人们的理念。
AI 治理应该集中在应用层面,而不是阻止上游开发
主持人:你在 AI 领域工作了这么长时间,担任过许多不同的职务。我感觉有些人现在才开始了解 AI。你如何看待当前的 AI 创新时刻,无论是就我们所处的位置,还是开发者面临的挑战来说?你认为要达到解决这些问题的下一个层次,我们需要做什么?
李飞飞:这确实是一个非凡的时刻。我认为这绝对是一场革命的转折点,原因在于应用 ——AI 现在可以被人们和企业日常使用,而且早期 AI 先驱在职业生涯早期阶段设想的许多梦想已经实现或即将实现。比如,公众熟知的图灵测试基本上是一个已解决的问题。图灵测试本身我不会说是智能的终极测试,但它曾是一个如此困难的标准,是一个合理的衡量标准,现在已经解决了。再比如自动驾驶汽车,虽然还没有完全解决,但比 2006 年时已经解决得多得多。
所以我认为,因为这些模型的力量已经产品化到人们和企业手中,这是 AI 革命的一个非凡阶段。但我也清楚地意识到,我们生活在硅谷泡沫中,因为我认为整个全球人口仍在逐步了解 AI 的现状,但我们确实看到了未来和未来的发展方向。
主持人:是的,AI 可能是一个巨型的人类能力放大器,可能带来巨大的积极影响,但我们也确实需要担心负面后果。我们需要引导它朝着正确的方向发展。从发展的视角来看,你认为我们需要做什么来确保 AI 的发展是积极的?
李飞飞:说实话,我认为我们可以做很多事,我认为我们应该昨天就开始做,现在还不晚,我们应该真正致力于此。
第一件事是我认为我们应该基于科学,而不是科幻。关于 AI 导致人类灭绝或 AI 带来世界和平的说法,都有太多炒作和言论,这两种观点都更像是科幻而不是科学。所以当我们思考如何处理 AI 政策、AI 治理时,基于数据、基于科学事实、基于科学方法是非常重要的。
其次,我真的相信,就像许多其他技术和工具一样,我们应该将治理精力集中在应用层面设置护栏上,也就是人类受到影响的地方,而不是阻止上游开发。想想汽车早期,它并不是很安全,没有安全带,一开始甚至没有车门,没有速度限制等等。然后我们确实有了教训,付出了人命的代价,但发生的事情不是让福特和通用汽车关闭工厂,而是为安全带、速度限制等创建了监管框架。
今天的 AI 类似,它是一个深具赋能性的技术,但也带来危害。所以我们应该关注的是,当 AI 应用于医疗时,我们如何更新 FDA 监管措施;当 AI 应用于金融时,我们如何设置监管护栏。应用是我们应该集中治理精力的地方。
最后但同样重要的是,我们需要理解,只有当拥有正面的生态系统时,才会有正面的 AI 未来。而这个生态系统需要私营部门。我认为私营部门(无论是大公司还是创业企业)很重要,但我们也需要公共部门。因为公共部门服务于公众福祉(public goods)。
在我看来,公共福祉有两种形式:一种是那些由好奇心驱动的创新和新知识 —— 无论是使用 AI 研究核聚变,还是使用 AI 治愈疾病,使用 AI 赋能我们的教师。所有这些不同的想法,很多都来自公共部门。ImageNet 就来自公共部门。
另一种形式的公共福祉是人才,我们需要教育越来越多的年轻人和公众了解这项技术,公共部门在 K12 到高等教育方面承担了社会教育责任的主要部分。这些是我非常关心的 AI 治理和政策的不同方面。
一些鼓舞人心的消息:有人在用 AI 评估农村社区的水质
主持人:我认为你也应该强调一下 AI for All,也就是要确保 AI 不是学术大佬们的专利,而是可以造福所有人。请谈谈 AI for All 以及它的使命和贡献是什么。
李飞飞:AI for All 是一个非营利组织,我与我的前学生和同事共同创立,其使命是为来自不同背景的 K12 学生提供机会,通过大学暑期项目和实习接触 AI。这个想法是试图实现 AI 的公共教育福祉 —— 我们知道 AI 将改变世界,但谁将改变 AI?我们希望更多样化的群体能来受到启发,使用这项技术,为各种伟大的事业开发这项技术。
我们一直专注于女性和来自农村、城市内或其他历史上代表性不足的社区和背景的学生,让他们参与这些暑期项目。看到这些年轻人使用 AI 或学习 AI,改进救护车调度算法、使用 AI 评估农村社区的水质,真是太鼓舞人心了!这个事情的规模依然很小,但我希望它能继续发展,因为让更多样化的人参与到 AI 中来这个目标非常重要。
AI 在革新医疗保健服务方面的潜力
主持人:你在医疗保健领域也做了研究。我觉得人们应该更多关注 AI 如何提升医疗水平。能谈谈你在这方面的工作和对未来的展望吗?
李飞飞:是的,正如我在书中所写,我对 AI 在医疗领域的应用充满热情。医疗保健是一个以人为本的领域,涵盖从基础生物科学、药物研发、临床诊断到公共卫生等多个方面。令人振奋的是,AI 在这个体系的每个环节都能发挥重要作用。
我特别关注医疗服务这个领域,因为这里最能体现人与人之间的互助。目前我们面临护士人力短缺的问题,他们工作繁重,流失率高。数据显示,护士每个班次要走四英里以上来取药和设备,在一个班次中,护士可能要完成多达 150 至 180 个不同的任务。同时,我们有病人从病床上摔下来,因为他们缺乏足够的照顾。对病情严重患者的分诊存在很多问题,更不用说独居老年人,面临痴呆恶化等诸多风险。
过去十多年,我一直在研究如何用智能摄像头技术帮助医护人员。这种非接触式的系统可以监测病床上病人的动作预防跌倒,追踪居家老人的行为和生活状况,甚至在手术室帮助护士清点器械避免遗留体内。我们将这种技术称为 NBA 智能,目标是协助医护人员提供更优质的照护服务。
AGI 到底是什么意思?
主持人:现在 AGI 这个词经常被提到,我记得你可能在某处说过你甚至不确定 AGI 是什么意思,因为显然很多人对它有自己的理解,就像是罗夏测试。请谈谈为什么会有这样的 AGI 讨论,它应该意味着什么,如何让这个讨论更理性,而不是一堆零散的呼喊 ——「它很棒」、「它很可怕」、「它会摧毁所有工作」、「它会帮助全人类」。
李飞飞:我知道,这既是一个最有趣但也令人沮丧的对话。我真的不知道 AGI 是什么意思。我想这个词来自大约 10 年前,那时候 AI 刚开始成熟,商业界对此开始产生兴趣。在 AI 之间加一个 G 以强调其通用性,我是尊重这个想法的。比如,现在的自动驾驶汽车就比仅能检测树木的相机要通用得多。这两者之间的差异是真实存在的。
如果回溯历史,回到 AI 的奠基者约翰・麦卡锡和马文・明斯基,回到他们从 1956 年夏天开始的梦想和希望,你会发现这其实就是他们的梦想 —— 制造能够思考和帮助人们做出决策的机器。而我们想的是解决检测树木这种极其狭窄的 AI 任务。
AI 这个领域就是为了创造思考机器。所以从这个角度来看,我们分享着同样的梦想、同样的科学好奇心、同样的追求 —— 让机器可以执行极其智能的任务。
所以从这个角度来看,AI 或 AGI 对我来说是同样的事情。
人际互动的价值:李飞飞与数学老师
主持人:我感觉最近的进步正在让我们更加接近这种 AI。我们可以通过日常对话让 AI 完成各种不同的任务。也就说所谓的智能体(Agent)。你认为这个发展方向如何?在未来几年里,智能体 AI 会像一些人说的那样改变一切吗?
李飞飞:自然语言能帮助人们搜索、构思、学习,是非常强大的工具。我自己也会使用 LLM 来帮助理解某些概念、阅读论文、探索我不知道的东西。最让我兴奋的是看到人们和孩子们将其用作提高自己学习的工具。
我确实想保持专注。保持人们的自我主动性很重要,这就需要为他们提供学习和赋能的好工具。我认为随着工具愈渐强大,我们将看到越来越多的协作能力,允许人类使用这些工具更精确地做事。我会很高兴看到这些发生。
主持人:我认为这不仅很重要,而且也是正确的事情。但也有人会担忧这些 AI 会取代人与人之间的互动,而我们知道社交很重要 —— 不管是对于教学,还是对于社区和同理心。您在自己的书《我看到的世界》中讲述了一个关于数学老师的故事,也涉及到了人际互动的重要性。你能多分享一些这方面的见解吗?
李飞飞:作为一个移民孩子,15 岁来到新泽西州,在不会说英语的情况下进入了一所公立高中。那是我旅程的开始。我非常幸运,很快就遇到了一个数学老师,萨贝拉先生。他以那种真正尊重和无条件的支持对待我。他不仅是我的数学老师,而且在我作为新移民的艰难青少年时期成为了我的朋友。我们的友谊一直持续。
他教育我的方式并不是通过言语。他从来没告诉我:飞飞,AI 要掌控世界了,听我的,去做以人为本的 AI(human-centered AI)。我想这个词从来没出现在我们的对话中。他是通过行动告诉我:我们社会和生活的意义在于我们为彼此所做的积极的事情,以及我们持有的信仰和我们追求的信标。通过他的行动,我开始认识到尊重和帮助他人是一件美好的事情,即使那是一个不会说英语、不知道自己在新国家做什么的迷茫孩子。我认为那种慷慨、善良和同情心是人类的核心。对我来说,从他那里学到的最重要的东西就是「以人为本」。
主持人:真是一个美好的故事。说到这里,有什么电影、歌曲或书籍能让你对未来充满希望吗?
李飞飞:《龙猫》是我最喜欢的电影之一。看到你的动作,仿佛已经能听到《龙猫》的主题曲了。但是我唱得不好,我就不唱了。这部电影虽然简单却又如此深刻。我还可以用陪孩子作为借口看这部电影,但说实话,我才不是因为孩子喜欢看呢!我就是喜欢看这部电影。
技术进步带来的红利必须共享
主持人:那么飞飞,你希望人们更经常问你什么问题呢?
李飞飞:我希望人们多问我如何用 AI 来帮助人类。关于这个话题我可以聊上几个小时,谈到这个我就能想到很多在斯坦福,或者遍布世界各地的优秀同事都为这方面做贡献。他们的具体研究我可能不太了解,但我很乐意通过他们的工作,来指明可供探索的方向。
主持人:没错。现在有很多人在做令人惊叹的事情,我们需要激励更多的人同行。在你的行业之外,有没有看到哪些让人激动的进展呢?
李飞飞:人文学科对能源的关注让我感到鼓舞。这好像再次证明,谈论其他话题,我的思维总会自然而然地回到 AI。就连 AI 的发展也面临着能源这个非常现实的问题,对吧?我认为环境的变化,以及为全球关系实现能源民主化都非常关键。而且我们不能永远依赖化石燃料。因此,许多能源领域的进展和全球性运动都令人兴奋。
主持人:最后一个问题,如果一切都对人类有利,你认为未来 15 年会朝着怎样的方式发展?实现那个目标的第一步是什么?
李飞飞:我希望未来 15 年能看到全球知识、福祉和生产力的整体提升,尤其是实现共同繁荣。之所以特别强调「共同」二字,是因为作为一个技术乐观主义者,我深信技术能帮助人类发现新知识、推动创新、提升福祉。历史一次又一次教会我们:技术进步带来的红利必须共享,我们要让这些技术福祉真正惠及每一个人。
参考链接:https://www.youtube.com/watch?v=0jMgskLxw3s
https://x.com/reidhoffman/status/1879531513752248565
#满血版Gemini 2.0又一次登上Chatbot Arena榜首
1M长上下文
就在国内各家大模型厂商趁年底疯狂卷的时候,太平洋的另一端也没闲着。
就在今天,谷歌发布了 Gemini 2.0 Flash Thinking 推理模型的加强版,并再次登顶 Chatbot Arena 排行榜。
谷歌 AI 掌门人 Jeff Dean 亲发贺信:「我们在此实验性更新中引入了 1M 长的上下文,以便对长篇文本(如多篇研究论文或大量数据集)进行更深入的分析。经过不断迭代,提高可靠性,减少模型思想和最终答案之间的矛盾。」
试用链接:https://aistudio.google.com/prompts/new_chat
让我们回忆一下:2024 年 12 月 20 日,横空出世的 Gemini 2.0 Flash Thinking,曾让 OpenAI 的十二连发黯然失色。
Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其经过专门训练,可使用思维(thoughts)来增强其推理能力。发布之初,这款大模型就登顶了 Chatbot Arena 排行榜。
在技术上,Gemini 2.0 Flash Thinking 主要有两点突破:可处理高达 1M token 的长上下文理解;能在多轮对话和推理中自我纠错。
Gemini 2.0 Flash Thinking 的一大亮点是会明确展示其思考过程。比如在 Jeff Dean 当时展示的一个 demo 中,模型解答了一个物理问题并解释了自己的推理过程,整个过程耗时 1 分多钟。
而另外一位研究者表示,Gemini-2.0-Flash-Thinking-Exp-01-21 这款最新模型的实际体验比 Jeff Dean 描述的还要快。
再看 Gemini 2.0 Flash Thinking 的成绩,那也是相当亮眼,和前两代 Gemini 1.5 Pro 002、Gemini 2.0 Flash EXP 相比,Gemini 2.0 Flash Thinking 在 AIME2024(数学能力测试)、GPQA Diamond(科学能力测试)和 MMMU(多模态推理能力)进步迅速,特别是数学成绩,提升了 54%。
从折线图来看,即使是比较对象是一个月前的自己,也取得了显著的提升。
与此同时,在 AGI House 举办的活动中,Jeff Dean 和研究科学家 Mostafa Dehghani 透露了更多 Gemini 2.0 Flash Thinking 和 Gemini 2.0 的细节。
进入 Gemini 2.0 Flash Thinking 的互动界面,可以发现谷歌把 Gemini 系列所有模型都放在了这个称为「Google AI Studio」的界面。
从左侧的菜单来看,我们可以在这里一站式地获得 API 密钥、创建提示词、访问实时对话、开发 APP。平台还提供了模型调优、资源库管理、Drive 访问集成等进阶功能,并配备了提示词库、API 文档、开发者论坛等支持资源。
但这个界面上的功能就像「集市」一样分散,藏得比较深的功能入口似乎并不用户友好,也缺乏介绍模型能力的文档。Jeff Dean 对此表示,当模型不再是实验版而是正式发布时,谷歌将提供完整的技术报告,他们现在的主要目标是让用户试用,再根据更多反馈改善。
Gemini 2.0 Flash Thinking 的互动界面
此外,谷歌的开发理念更偏向「全面均衡」。「我们不希望模型在某些领域特别突出,而其他领域表现欠佳 —— 比如在读 X 射线时表现出色,但解读核磁共振时却很糟糕。」Jeff Dean 补充道:「我们的目标是打造一个真正有实力的通用模型,能够完成用户期待的各类任务。这需要持续改进:我们会收集用户反馈,了解模型在哪些方面做得好,哪些方面做得不够好。然后,获取更多人们关心的数据来提升,确保模型在各个方向都有进步,而不是局限在某个小范围内 —— 虽然在数学等特定领域,有时也会进行专门优化。」
Gemini 2.0 Flash Thinking 主推的亮点是超长的上下文窗口。不过,众所周知,很多具备长上下文窗口能力的 AI 模型都有个通病:聊着聊着就「变傻」了,说的话前言不搭后语,或者就直接「摆烂」,跳过上下文中的大段信息。
Jeff Dean 表示,Gemini 2.0 Flash Thinking 真正能做到在对话过程中保持连贯的思维,并灵活运用之前积累的信息来完成当前的任务。因相比混合在一起的数千亿训练数据,上下文窗口的信息对于模型来说非常清晰,因此,上下文窗口的信息对于 Gemini 2.0 Flash Thinking 来说,就像你让把一张普通轿车的图片改成敞篷车一样,模型能准确理解每个像素,然后一步步完成修改。
而从下面这个 demo 来看,Gemini 2.0 理解多模态的能力已经跃升了一个台阶。它可以根据语音提示,实时改变这三个小圆的排布,排成一行放在界面顶部,或者排列成一个雪人。更夸张的是,Gemini 2.0 对语音、视觉和动作的融会贯通已经达到了你说想要紫色的圆,它知道要把红色和蓝色的圆重叠在一起调色的境地。
,时长01:16
想要如此精准地理解网页界面的布局和内容,需要强大的边框识别能力。Jeff Dean 揭秘,这来自 Project Mariner。Project Mariner 是一个研究性的实验项目,旨在探索人类将如何与 AI 智能体互动,第一步就是让 AI 理解并操作网页浏览器。
Project Mariner 的能力类似于 Claude 的「computer use」,可以实时访问用户的屏幕,理解浏览器中图像的含义。
传送门:https://deepmind.google/technologies/project-mariner/
当被问及 Gemini 系列模型是否要向更多模态进发时,Jeff Dean 的回答是:目前谷歌正在瞄准 3D 数据,而且已经有了很好的结果。
看来谷歌还攒了不少存货,下一个突破会在哪个领域?让我们拭目以待。
参考链接:
https://x.com/rohanpaul_ai/status/1881858428399722948
https://x.com/demishassabis/status/1881844417746632910
https://deepmind.google/technologies/gemini/flash-thinking/
https://x.com/agihouse_org/status/1881506816393380041
#OmniManip
化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
本文的作者均来自北京大学与智元机器人联合实验室,通讯作者为北京大学计算机学院助理教授董豪。目前团队研究方向覆盖智能机器人的泛化操纵、具身导航和感知自主决策。团队持续开放联合实习生岗位,提供充足的机器人本体和计算资源。
近年来视觉语⾔基础模型(Vision Language Models, VLMs)在多模态理解和⾼层次常识推理上⼤放异彩,如何将其应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约:
1. VLM 缺少精确的 3D 理解能⼒:通过对⽐学习范式训练、仅以 2D 图像 / ⽂本作为输⼊的 VLM 的天然局限;
2. ⽆法输出低层次动作:将 VLM 在机器⼈数据上进⾏微调以得到视觉 - 语⾔ - 动作(VLA)模型是⼀种有前景的解决⽅案,但⽬前仍受到数据收集成本和泛化能⼒的限制。
,时长00:39
针对上述难题,北⼤携⼿智元机器⼈团队提出了 OmniManip 架构,基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。
针对⼤模型幻觉问题和真实环境操作的不确定性,OmniManip 创新性地引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计,实现了操作性能的显著突破。
实验结果表明,OmniManip 作为⼀种免训练的开放词汇操作⽅法,在各种机器⼈操作任务中具备强⼤的零样本泛化能⼒。
项⽬主⻚与论⽂已上线,代码与测试平台即将开源。
- 主⻚地址:https://omnimanip.github.io
- 论⽂地址:https://arxiv.org/abs/2501.03841
技术⽅案解析
⽅法概述
OmniManip 的关键设计包括:
- 基于 VLM 的任务解析:利⽤ VLM 强⼤的常识推理能⼒,将任务分解为多个结构化阶段(Stages),每个阶段明确指定了主动物体(Active)、被动物体(Passive)和动作类型(Action)。
- 以物体为中⼼的交互基元作为空间约束:通过 3D 基座模型⽣成任务相关物体的 3D 模型和规范化空间(canonical space),使 VLM 能够直接在该空间中采样 3D 交互基元,作为 Action 的空间约束,从⽽优化求解出 Active 物体在 Passive 物体规范坐标系下的⽬标交互姿态。
- 闭环 VLM 规划:将⽬标交互姿态下的 Active/Passive 物体渲染成图像,由 VLM 评估与重采样,实现 VLM 对⾃身规划结果的闭环调整。
- 闭环机器⼈执⾏:通过物体 6D 姿态跟踪器实时更新 Active/Passive 物体的位姿,转换为机械臂末端执⾏器的操作轨迹,实现闭环执⾏。
以物体为中⼼的交互基元
物体的交互基元通过其在标准空间中的交互点和⽅向来表征。交互点 p∈R3 表示物体上关键的交互位置,⽽交互⽅向 v∈R3 代表与任务相关的主要轴。这两者共同构成交互基元 O={p,v},封装了满⾜任务约束所需的基本⼏何和功能属性。这些标准交互基元相对于其标准空间定义,能够在不同场景中保持⼀致,实现更通⽤和可重⽤的操作策略。
对于通⽤物体的交互点提取,OmniManip 利⽤视觉语⾔模型(VLM)在原图(当部件可⻅且实体存在时)或在正交视图中渲染的 3D ⽹格(当部件不可⻅或实体不存在时)上进⾏定位。
与 CoPa 和 ReKep 等⽅法不同,OmniManip 直接让 VLM 进⾏ grounding,不会受限于不稳定的 part 分割或聚类结果。
在交互⽅向的采样⽅⾯,由于物体的规范化空间通过 Omni6DPose 锚定,轴的⽅向与语义对⻬,该团队让 VLM 直接对物体标准空间的轴进⾏语义描述,并根据操作任务进⾏匹配度排序,以获得交互⽅向的候选。
双闭环系统设计
李⻜⻜团队的⼯作 ReKep 通过关键点跟踪巧妙地实现了机械臂的闭环执⾏,但其 VLM 规划过程是开环的。OmniManip 则更进⼀步,得益于以物体为中⼼的设计理念,⾸次在 VLM 规划和机械臂执⾏层⾯实现了双闭环系统:
闭环规划:在实验中,VLM 推理很容易出现幻觉,导致错误的规划结果(尤其是在涉及 3D 旋转的任务中,如倒⽔、插笔)。OmniManip 赋予 VLM 闭环规划能⼒,通过渲染物体的三维模型,帮助 VLM 「脑补」出规划结果后的物体样貌,再判断其合理性。
这⼀功能赋予了 VLM 空间反思能⼒,使其能够在测试时进⾏推理,类似于 OpenAI 的 O1,⼤⼤提⾼了操作成功率。为了保持框架的简洁性,研究团队没有设计复杂的测试时推理流程,仅作⼀轮校验就已明显提⾼了 VLM 的规划准确率。
,时长00:11
闭环执⾏:OmniManip 提取的交互基元位于物体的规范空间中,只需引⼊⼀个 6D 位姿跟踪器即可轻松实现闭环操作。与 ReKep 使⽤的关键点跟踪器相⽐,基于物体的 6D 位姿跟踪⽅式更为稳定,并对遮挡具有更强的鲁棒性。(缺点则是不如关键点灵活、⽆法建模柔性物体操作。)
,时长00:23
实验结果
强⼤的开放词汇操作性能
在 12 个真机短程任务上,OmniManip 均展现出卓越的性能。
双闭环系统设计为 OmniManip 带来了约 17% 的性能提升,这证明了 RRC 在有效减少⼤模型幻觉影响⽅⾯的作⽤。
交互基元的鲁棒性
VLM 需要基于交互基元对机器⼈操作进⾏规划,如果交互基元本身存在问题,VLM 就会陷⼊「巧妇难为⽆⽶之炊」的困境。因此,可靠的交互基元⾄关重要。以往的⽅法通常是让 VLM 直接在相机拍摄的 2D 图像上采样交互基元,然后通过相机的内外参数转换到 3D 空间。
然⽽,由于 2D 图像存在空间歧义,采样效果对相机视⻆、图像纹理和部件形状等因素极为敏感(例如,当相机平视杯⼦时,之前的⽅法只能对准杯⼦的侧壁、⽽不是开⼝)。⽽ OmniManip 则是在物体的 3D 规范空间中进⾏采样,能够轻松克服 2D 图像的局限性,实现可靠的 3D 交互基元提取。
强⼤的拓展性与潜⼒
OmniManip 能够与 high-level 任务规划器结合,实现⻓程任务操作
,时长00:42
,时长01:22
作为⼀种以物体为中⼼的算法,OmniManip 与机械臂本体解耦,能够零成本迁移⾄不同形态的本体(例如双臂⼈形机器⼈)。
,时长00:41
OmniManip 具有强⼤的通⽤泛化能⼒,不受特定场景和物体限制。团队已将其应⽤于数字资产⾃动标注 / 合成管道,实现⼤规模的机器⼈轨迹⾃动采集。该研究团队即将开源⾼质量的泛化操作⼤规模数据集和对应的仿真评测基准,敬请期待!
,时长00:09
#OS-Genesis
OS-Genesis来了,自动收集和标注Agent数据,高效且多样
共同一作孙秋实是香港大学的博士生,此前在新加坡国立大学获得硕士学位,研究方向包括 LLM Agents 和神经代码智能等领域。共同一作金川杨是约翰霍普金斯大学的博士生,此前以专业第一名毕业于纽约大学,其开发的心智能力测试 MMToM-QA 荣获 ACL 2024 杰出论文奖。本文的 Shanghai AI Lab 吴志勇团队此前已发布了 OS-Copilot、OS-Atlas、SeeClick等同系列成果。
- 论文题目:OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
- 项目地址:https://qiushisun.github.io/OS-Genesis-Home/
- 研究机构:上海人工智能实验室,香港大学,上海交通大学,约翰霍普金斯大学,牛津大学,香港科技大学
1 背景与动机
有效的 Digital Agents 必须拥有两个能力:(1)Planning 能力,即任务规划能力,能将用户给定的(高阶)指令分步划分为子目标(2)Action 能力,即根据当前目标,执行相应的动作。
在构建高质量的 GUI agent 时,GUI 轨迹数据能最有效地让 agent 学习如何完成任务,其数据稀缺性是当前 digital agent 领域最关键挑战之一。以下是一个典型的 GUI 轨迹数据示例,它包括以下部分:
- 高阶指令:明确规定任务目标,例如 “将 Broccoli 应用中的‘Avocado Toast with Egg’标记为收藏”。
- 低阶指令:分解为具体的操作步骤,例如 “点击‘Avocado Toast with Egg’以查看更多选项”。
- 动作:与低阶指令相关的具体操作,如 “CLICK [Avocado Toast with Egg]”。
- 状态:包括执行动作前后的可视化和文本化表示,例如屏幕截图和 GUI 的 a11ytree 结构。
现有的轨迹数据采集方法通常依赖于人工监督或基于预定义任务(Task-Driven)的合成数据生成。这些方法在实际应用中存在以下局限性:
人工采集的过高成本:人工标注轨迹数据需要大量的人力资源,不仅需要手动设计高阶指令,还需逐步记录每一步操作。这使得数据收集过程成本高昂且效率低下。
合成数据的局限性:基于模型生成的轨迹数据虽然可以缓解人工标注的成本问题,但通常依赖于预定义的高阶任务。这种方法不仅限制了生成数据的多样性,还容易导致与真实环境的差距。特别是在中间步骤出错或任务目标 / 环境不匹配时,生成的轨迹可能是不完整或不连贯的。
因此,如何在成本可控的情况下,有效地构建 GUI Agents 轨迹是一个非常重要的课题。在此动机下,本文提出了 OS-Genesis:一套无需人工监督的高质量 GUI 数据合成框架。
2 OS-Genesis
OS-Genesis 的核心思想是:通过先探索性地交互 GUI 环境,捕捉每一步动作及其前后状态变化。
然后基于这些变化逆向生成高质量的低阶指令(Low-level instruction,比如’点击 Calendar APP’),再根据环境导出一个高阶指令(High-level instruction,比如’添加日程:看推文’)。随后,让模型执行这一合成的指令,此过程完全摆脱了人工干预和任务预定义的限制,实现了 GUI 轨迹数据生成的高效性和多样性。本文可以为构建通用的 GUI agent 提供新的思路,其具体方法如下所示。
2-1 反向任务合成
反向任务合成(Reverse Task Synthesis)是 OS-Genesis 的核心,它帮助我们在构建 GUI 轨迹数据时摆脱需要人工 / 机器预定义任务的局限。其流程如下所示:
动作记录与状态捕捉
在没有预定义任务的情况下,OS-Genesis 通过在 GUI 环境中系统性地执行基本动作(例如 CLICK、TYPE、SCROLL 等),生成大量的三元组数据 ⟨状态前,动作,状态后⟩,即 ⟨spre, action, spost⟩。这些三元组记录了每个动作对环境状态的影响,为后续的任务合成提供了原始数据。
低阶指令生成
利用 GPT-4o 模型,将每个三元组 ⟨spre, action, spost⟩ 转化为描述具体操作的低阶指令(Low-level Instruction)。例如,若动作 CLICK 使某菜单展开,低阶指令可能为 “点击下拉菜单以显示选项”。
高阶任务生成
在低阶指令的基础上,OS-Genesis 进一步生成高阶指令(High-level Instruction)。高阶指令通过结合低阶步骤和当前 GUI 环境,描述了一个更为抽象且目标明确的任务,例如 “配置应用程序设置”。这种从低阶到高阶的逐步生成方法不仅确保了指令的逻辑一致性,还能最大化利用 GUI 环境中的动态特性。
通过上述反向任务合成,OS-Genesis 可以在没有人工干预的情况下构建多样化、语义丰富的任务集合,显著提升了数据生成的效率和质量。
2-2 轨迹构建与奖励模型
反向任务合成生成的高阶指令随后被用作探索 GUI 环境的起点,进一步构建完整的轨迹数据(Trajectory)。为了确保生成轨迹的质量,OS-Genesis 引入了一个奖励模型(Trajectory Reward Model, TRM),对生成的轨迹进行质量评估和筛选。以下是轨迹构建与奖励模型的详细流程:
轨迹执行
利用反向任务合成生成的高阶指令,GUI agent 会执行一系列动作以完成任务。每条轨迹由以下内容组成:高阶指令、低阶指令、动作序列以及状态(包含截图和 a11ytree)。
轨迹奖励模型(Trajectory Reward Model)
为避免低质量或不完整轨迹对模型训练的负面影响,OS-Genesis 使用 TRM 对每条轨迹分配一个奖励分数。奖励分数基于以下两个指标:
- 完成度(Completion):衡量轨迹是否成功完成高阶任务,包括每个步骤的正确性和逻辑连贯性。
- 一致性(Coherence):评估轨迹的逻辑性,确保动作序列能够高效地实现任务目标。
奖励驱动的数据筛选
根据奖励分数,轨迹数据会被优先用于模型训练。与传统的二元过滤方法(即抛弃执行失败的任务)不同,TRM 允许部分不完整但具有探索价值的轨迹保留在数据集中,从而最大化地利用生成的数据。
通过结合反向任务合成和奖励模型,OS-Genesis 实现了从任务生成到轨迹构建的端到端流程。实验结果表明,OS-Genesis 生成的数据在质量和多样性上均显著优于现有方法,为构建通用 GUI agent 提供了可靠的数据支持。
3 实验
为了验证 OS-Genesis 在动态环境中生成高质量轨迹数据的能力,本文在动态环境上进行了实验。对于 Mobile 场景选择了 AndroidWorld 和 AndroidControl,对于 Web 场景则使用了 WebArena 作为测评基准。在这些复杂的环境中,作者测试用 OS-Genesis 合成数据训练的 agent 表现相对传统方法效果如何。
3-1 模型与基线
VLMs. 作者在实验中选择了代表性的 VLSs 作为 GUI agent 的基础模型,以便全面评估 OS-Genesis 生成的数据在不同模型上的的影响:
- InternVL2-4B/8B:一种支持高分辨率动态输入的开源 VLM,主要用于视觉任务。其扩展版本 InternVL2-8B 具有更大的模型容量。
- Qwen2-VL-7B-Instruct:一种多模态模型,具备一定的 GUI 交互能力,专为指令执行任务优化。
此外,作者还额外添加了 GPT-4o 作为一个强 baseline,来比较我们所训练的开源模型和商业模型之间的差距。
Baselinse. 所有的 baseline 接受的状态信息均为 Screenshots + a11ytree
- Zero-Shot:直接使用未经过额外训练的模型完成任务。这种方法用于评估模型的原始能力。
- Task-Driven:利用预定义任务和固定策略生成数据,广泛应用于传统数据生成流程。
- Self-Instruct:在 Task-Driven 的基础上,引入自我指令生成机制来扩展任务的和覆盖范围。
3-2 Mobile
在 AndroidWorld(In-domain 实验)中,OS-Genesis 生成的数据显著提升了 GUI agents 的任务成功率,从基线的 9.82% 提升至 17.41%,几乎翻倍。尤其是在任务规划和复杂操作中,OS-Genesis 的数据展现了更强的适应性和泛化能力。
在 AndroidControl 中(OOD 实验),OS-Genesis 生成的轨迹在高阶和低阶任务中均表现出色,特别是在高阶任务中,其规划能力提升尤为明显。此外,OS-Genesis 在未见过的应用场景下表现出了较强的泛化能力,验证了其生成数据的高质量和多样性。
3-3 Web
OS-Genesis 在 WebArena 中的表现也显著优于基线方法。对于复杂的交互式网页任务(如 GitLab 和 Reddit),本工作的 agent 相比 Task-Driven 方法提升了约 50%。在多个动态网页场景中,通过 OS-Genesis 生成的数据,agent 表现出了更高的多样性和泛化能力,特别是在需要多步操作的任务中,其生成轨迹更符合逻辑和用户意图。
4 分析
本项工作对合成轨迹的质量进行了详尽的分析,特别是将 OS-Genesis 生成的数据与人工标注(Human-annotated)数据进行了对比,以全面评估其在实际应用中的可行性和有效性。
4-1 高阶指令对比
作者首先比较了 OS-Genesis 生成的高阶指令与人工编写的高阶指令在任务执行中的效果。实验基于 AndroidWorld 的 500 个人工标注轨高阶任务,采用 GPT-4o 探索其对应轨迹,并用这些轨迹训练基于 InternVL2-8B 和 Qwen2-VL-7B。为保证公平性,OS-Genesis 和各 baseline 的轨迹数量保持一致。
结果分析
在任务成功率上,OS-Genesis 生成的高阶指令显著优于人工编写的指令。这主要归因于以下两点:
- 动态环境适配性:人工编写的任务往往难以与复杂环境完全匹配,而 OS-Genesis 通过反向任务合成生成的指令能够自适应 GUI 动态特性,更符合环境需求。
- 逐步生成策略:OS-Genesis 从低阶指令逐步构建高阶指令,确保了指令的逻辑连贯性和可执行性,而人工编写的高阶指令有时会因缺乏细节而导致轨迹不完整。
4-2 轨迹数据对比
为了进一步验证轨迹质量,作者探讨了 OS-Genesis 生成的完整轨迹与人工标注(Human-annotated)轨迹在 GUI agent 训练中的差异。作者从 AndroidControl 的训练集中选取了 1,000 条众包标注的轨迹进行训练并对比。正如图下,OS-Genesis 显著缩小了合成轨迹与人工标注轨迹之间的性能差距。
这种提升在高阶任务中尤为显著,表明基于 OS-Genesis 轨迹训练的 agent 在任务规划和问题解决方面表现更接近于人类操作方式。从平均任务成功率来看,将人工标注数据视为 gold standard,OS-Genesis 数据的性能保留率超过了 80%。
5 总结与展望
本项工作提出了 OS-Genesis,为有效构建 GUI Agents 提供了全新的视角。通过引入一种全新的交互驱动合成方法,OS-Genesis 成功克服了以往数据收集中构建(1)有意义且(2)多样化的 GUI 任务的关键瓶颈。在多个挑战性的 online 基准测试中,作者证明了 OS-Genesis 生成的数据在构建 GUI agents 的规划和动作能力上实现了突破。此外,OS-Genesis 生成的轨迹数据展现出了更高的多样性,并显著缩小了合成数据与人工标注数据之间的质量差距。OS-Genesis 为生成高质量 GUI agents 训练轨迹数据提供了一个有前景的方向,使研究领域在实现数字世界自动化的道路上更进一步!
#可灵视频生成可控性为什么这么好
可灵,视频生成领域的佼佼者,近来动作不断。继发布可灵 1.6 后,又公开了多项研究揭示视频生成的洞察与前沿探索 ——《快手可灵凭什么频繁刷屏?揭秘背后三项重要研究》。可灵近一年来的多次迭代展现出惊人的技术进步,让我们看到了 AI 创作的无限可能,也让我们思考视频生成技术面临的挑战。
视频作为一种时空连续的媒介,对时间维度的连贯性有很高的要求。模型需要确保视频中的每一帧画面都能自然衔接,包括物体运动、光照变化等细节都需要符合现实世界的规律。另一个挑战是用户意图在视频中的精确表达。当创作者想要实现特定的视觉效果时,仅依靠文本描述往往难以准确传达他们的创作意图。这两个挑战直接导致了视频生成的“抽卡率”高,用户难以一次性获得符合预期的生成结果。
针对这些挑战,一个核心解决思路是:通过多模态的用户意图输入来提升视频生成的可控性,从而提升成功率。可灵团队沿着这一思路,在四个控制方向上做了代表性的探索:
- 三维空间控制:之前的视频生成往往局限于单一视角,难以满足复杂叙事需求。为此,团队研究了 SynCamMaster ,实现了高质量的多机位同步视频生成。让创作者能像专业导演一样,通过多角度镜头切换来讲述故事。
- 运动轨迹控制:3DTrajMaster 让创作者能在三维空间中直观地规划和精确地控制物体运动轨迹,让用户轻松实现复杂的动态效果。
- 内容风格控制:StyleMaster 确保了生成视频在保持时间连贯性的同时,能够统一呈现特定的艺术风格,为创作者提供了更丰富的艺术表现手法。
- 交互控制:GameFactory 使用少量 MineCraft 动作数据就能实现交互式游戏体验。结合视频生成的开放域生成,展示了视频生成技术在游戏创作中的广阔应用前景。
这一系列研究成果充分展现了可灵在视频生成领域的系统性探索。通过更好地理解和整合多模态用户意图,降低生成“抽卡率”,可灵正在逐步实现让 AI 视频创作更加精确、可控且易用的目的。
多机位同步视频生成 ——SynCamMaster
Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠 AI 就能够创作出好的视频。然而,我们所常见的大荧幕上的电影通常是由多个摄像机同步拍摄后再剪辑而成的,导演可以根据人物情绪变化或故事情节发展切换镜头,以达到更好的视觉效果。例如,在拍摄两人交谈的场景时,镜头通常根据说话人在两人间切换,并在交谈结束后切换到对整个场景拍摄的镜头。而如今的视频生成模型均无法实现 “多机位同步” 视频生成,限制了 AI 影视制作的能力。
近期,可灵研究团队在 “多视角同步视频生成” 领域做出了首次尝试,推出了基于文本的 “多视角同步” 视频生成模型 SynCamMaster,该模型可以根据用户提供的文字描述和相机位姿信息,生成时序同步的多段不同视角视频。
,时长00:31
SynCamMaster 支持多种相机视角变化,例如改变相机方位角、俯仰角、距离远近等,在 AI 影视制作、虚拟拍摄等场景有较强的应用价值。此外、该工作提出了多视角同步视频数据集 SynCamVideo-Dataset 用于多视角视频生成的研究。
- 论文标题:SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
- 项目主页:https://jianhongbai.github.io/SynCamMaster
- 代码:https://github.com/KwaiVGI/SynCamMaster
- 论文:https://arxiv.org/abs/2412.07760
1. SynCamMaster 效果展示:支持多种相机视角变化
a) 相机方位角变化
b) 相机俯仰角变化
c) 相机远近变化
d) 相机方位角、俯仰角同时变化
可以观察到,SynCamMaster 可以根据用户输入的文本描述及相机位姿生成多段时序同步视频,在保证同步性的同时支持大幅度的视角变化。
2. SynCamMaster 的方法和创新点
如下图所示,SynCamMaster 基于预训练的 “文本 - 视频” 生成模型,在每个 Transformer Block 中插入两个新组件:
- 相机编码器:将归一化的相机外部参数投影到嵌入空间;
- 多视角同步模块:在相机相对位姿的指导下进行多视角特征融合。
在训练时只更新新组件参数,预训练的文本 - 视频生成模型保持冻结状态。
SynCamMaster 的主要创新点为:
- SynCamMaster 率先实现了多机位真实世界视频生成。设计了一种即插即用的 “多视角同步” 模块以实现任意视角下的同步视频生成。
- 提出了一种多种数据混合的训练范式,以克服多机位视频数据的稀缺性并使得模型具备较好的泛化能力。并公开了多视角同步视频数据集 SynCamVideo-Dataset 用于多视角视频生成的研究。
3. 训练数据集:SynCamVideo 数据集
数据收集过程。图(a),从镜头运动的视频中采样视频帧以构造 “多视角图像数据”,示例图像来自 DL3DV-10K;图(b),通过 Unreal Engine 5 渲染的 “多视角视频数据”;图(c),利用通用视频数据作为正则化。
SynCamVideo 数据集是使用 Unreal Engine 5 渲染的多摄像机同步视频数据集。它包含 1,000 个不同的场景,每个场景由 36 个摄像机拍摄,总计 36,000 个视频。SynCamVideo 以 50 种不同的动物为 “主要拍摄对象”, 20 个不同地点作为背景。在每个场景中,从 50 种动物中选择 1-2 个拍摄对象并沿着预定义的轨迹移动,背景从 20 个位置中随机选择,36 个摄像机同时记录拍摄对象的运动。渲染场景示例如下:
每个场景中的摄像机都放置在距离场景中心 3.5m - 9m 的半球形表面上。为了最小化渲染视频与真实世界视频的域偏移,研究者将每个摄像机的仰角限制在 0°- 45° 之间,方位角限制在 0°- 360° 之间。每个摄像头都在上述约束条件下随机采样,而不是在各个场景中使用相同的摄像头位置。上图显示了一个示例,其中红星表示场景的中心点(略高于地面),视频由同步相机渲染,以捕捉主要拍摄对象(在本例中是一只山羊和一只熊)的运动。
4. SynCamMaster 实验结果
上图中研究者将 SynCamMaster 与最先进的方法进行了比较。研究者使用 SynCamMaster 合成多视角图像(M.V. 图像)作为基线方法的参考图像(以蓝色框表示)。据观察,基线方法无法生成多视角同步视频。例如,蓝色巴士可能在一个镜头中停留在原地,在另一个镜头中向前移动。而 SynCamMaster 可以合成符合相机姿势和文本提示的视图对齐视频。更多结果请访问项目主页(https://jianhongbai.github.io/SynCamMaster)查看。
5. 总结
在本文中,研究者提出了 SynCamMaster ,一种基于文本和相机位姿的 “多视角同步” 视频生成模型,该模型可以根据用户提供的文字描述和相机位姿信息,生成符合文本描述的时序同步的多段不同视角视频。SynCamMaster 支持多种相机视角变化,例如改变相机方位角、俯仰角、距离远近等。此外、研究者还提供了多视角同步视频数据集 SynCamVideo-Dataset 用于多视角视频生成的研究。
精准控制视频中物体的 3D 轨迹 ——3DTrajMaster
除了多机位同步生成,虚拟拍摄的真正落地亟需精准的物体可控性。试想一下,如果我们可以精准控制视频中每个主体的 3D 时空位置,那么就可以拍摄出针对物体的定制化特效,进一步促进 AI 电影的进展。
可灵研究团队提出了 3DTrajMaster 的多物体 3D 位姿可控的视频生成模型。该方法通过逐主体相对应的 3D 轨迹控制视频生成中多个主体在 3D 空间中的运动,相比与传统在 2D 空间的表征 (边界框、点轨迹等) 是一种更本真的物体运动建模方式。这里的 3D 轨迹指可控制 6 个自由度,即控制主体的 3D 位置和朝向。
- 论文标题:3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation
- 项目主页:http://fuxiao0719.github.io/projects/3dtrajmaster
- 代码:https://github.com/KwaiVGI/3DTrajMaster
- 论文:https://arxiv.org/pdf/2412.07759
1. 3DTrajMaster 性能展示
以下展示了 3DTrajMaster 的广泛特征:
(1) 泛化到多种主体:包括人、动物、机器人、飞机、汽车,甚至抽象的火焰、云雾等。
(2) 泛化到多样的背景:如下所示可以将一只考拉以相同的 3D 轨迹生成在城市、森林、沙漠、海滩、冰川、洞穴等不同的场景中。
(3) 生成复杂的 3D 轨迹:支持多个主体的 3D 遮挡、180 度 / 连续 90 度的转弯、大角度的变向、原地转圈等
(4) 精细化控制物体细节:可改变人的穿着、发型、身材、性别、佩戴等,也可以改变其它物体 (如动物、车) 的整体定性描述
2. 3DTrajMaster 方法介绍
3DTrajMaster 的训练涵盖两个阶段。首先,它通过训练 LoRA (具体为基模型的自注意力、跨注意力和线性映射层) 作为域自适应器来减轻训练数据集(通过 UE 引擎采集的运动轨迹 - 视频 pair)带来的负面影响。
其次,该方法选择了一种通用的方法在 2D 空间自注意力层之后插入 object injector 来插入成对的文本实体提示和 3D 轨迹。具体而言,实体通过文本编码器被投影到隐空间向量中,并利用可学习的位姿编码器投影成和 3D VAE 编码后对齐的位姿序列,然后与实体嵌入融合形成实体和轨迹的对应关系。这种对应关系嵌入与视频隐空间向量相连接,并被馈送到门控自注意力层进行进一步的运动融合。最后,修改后的隐向量返回到 DiT 块中的剩余层中。
在推理阶段,该方法将退火采样策略融入了 DDIM 采样:在较为初始的推理过程步骤中,主体和相对应的轨迹插入模型中以确定总体的多物体运动轨迹,而在后续阶段它们被舍弃,模型退回到最基础的文生视频过程。
3. UE 渲染的标注物体 6DoF 位姿的数据集合 360°-Motion
高质量的训练数据对于模型的训练至关重要,但是目前从通用的视频数据中标注物体的 6DoF 位姿数据非常困难:
- 较低的物体多样性和质量:高质量并成对的主体和轨迹大多受限于人和自动驾驶车辆,不同数据集在 3D 空间的分布差异非常大,而且主体可能过于冗余。在一些数据集中,人的分布占了大量的比重,会导致域外的主体泛化问题。
- 2低质量 / 失败的位姿估计:对于非刚性物体的运动 6D 物体,只有人通过 SMPL 模型被广泛地研究。目前仍然缺乏通用的 6DoF 位姿估计器。
为了解决这个问题,可灵研究团队通过 UE 平台构建了合成的 360°-Motion 数据集。如下图所示,团队首先收集了 70 个可驱动运动的人和动物 3D 资产,并进一步用 GPT-4V 给资产打上相应的文本标注。然后,研究团队采用了 GPT 生成复杂的多物体运动轨迹 (含 3D 位置和朝向,在 5×5 平方米的运动平台上),涵盖 96 个运动轨迹模版。其次,研究团队收集了 9 个 3D UE 平台 (涵盖城市、沙漠、森林和 5 个投影到 3D 空间的 HDRIs),并将 3D 资产与生成的 3D 轨迹组合放置在 UE 平台中。最后安置 12 个相机环绕拍摄多物体的运动,获得 54,000 组训练视频数据。
4. 3DTrajMaster 效果对比
相比 SOTA 的基准 Direct-a-Video、MotionCtrl、Tora 等,3DTrajMaster 可以在 3D 空间进一步控制物体的位置和朝向,同时它可以学到多主体和相对应的 3D 轨迹对应关系,而这是之前 2D 运动表征的方法普遍缺失的。当多物体在 3D 空间中存在运动的遮挡,这个难点会变得更加突出。
相比逐场景优化的 TC4D,3DTrajMaster 这种 feed-forward 的方法可以实现 700× 的提速,并且具有更高质量的现实画质和渲染更多样的背景。
5. 总结与未来展望
3DTrajMaster 展示了强大的视频生成和 3D 交互的可能性。在未来,更复杂的运动表征 (如人跳舞、挥舞手等局部运动,一个男人举起一只狗等交互运动) 也可以通过类似的 structured 运动表征进行建模,其中核心的是构建高质量的运动表征数据。同时,更加复杂的文本提示词输入和更多的主体输入也是可以进一步改进的点,这些都将为高质量可控的虚拟视频拍摄打下基础。
独特的视频艺术风格呈现 ——StyleMaster
创作者们不再满足于简单的视频生成,而是追求更具艺术性和个性化的创作表达。风格控制其能够赋予视频独特的艺术气质。然而,现有的视频风格化方法面临着两个主要挑战:难以准确提取和迁移参考图像的风格特征,以及在视频风格转换时出现时序不连贯、内容难以保持的问题,这严重限制了 AI 视频艺术创作的表现力。
StyleMaster,通过进一步提升参考图像中的风格和内容的解耦能力来提升生成视频中的风格准确度,引入内容控制模块以及运动提升模块来改善内容一致性与时序稳定性。
,时长00:41
- 论文标题:StyleMaster: Stylize Your Video with Artistic Generation and Translation
- 论文链接:https://arxiv.org/abs/2412.07744
- 项目主页:https://zixuan-ye.github.io/stylemaster/
- 代码仓库:https://github.com/KwaiVGI/StyleMaster
1. StyleMaster 效果展示
以下展示了 StyleMaster 的多方面性能。
视频风格迁移:给定任意源视频,StyleMaster 能在内容保持良好的前提下根据提供的风格参考图将其转换至对应风格。并且在时序上保持良好的一致性和流畅度。
风格化视频生成:给定文字 prompt 和风格图像,StyleMaster 能生成风格准确、文本对齐的高质量视频。并且,对于不同的 prompt 和风格图都具有良好的泛化性。
,时长00:05
相同风格,不同 prompt 效果:
相同 prompt,不同风格图效果:
图像风格迁移:与其他图像风格迁移方法相比,StyleMaster 能够更好地对齐参考图中的风格,例如使用诺贝尔获奖图风格对人物风格化时,StyleMaster 能更好地将图片转变为线条风,而不是保留过多细节,仅仅改变图像的颜色。
2. StyleMaster 方法介绍
自动化风格配对数据集构建
StyleMaster 提出创新解决方案来完成风格数据集的自动构建。通过 model illusion(模型幻觉)技术,预训练的文生图模型可自动生成配对数据。具体通过预定义的物体列表和风格描述列表,随机选择风格和物体生成配对图像。由于生成的配对图像本质是像素重排,能完美保证风格一致性,且完全自动化。
双重特征提取机制
- 全局风格提取:基于对比学习与幻觉数据集的提取器。使用 CLIP 提取初始图像特征,通过 MLP 投影层转换为全局风格表示。采用三元组损失函数训练,将同对图像作为正样本,其他图像作为负样本。
- 局部纹理保持:提取 CLIP patch 特征,通过计算与文本提示的相似度,选择相似度较低的 patch 作为纹理特征。通过 Q-Former 结构处理,更新查询 token 并整合特征,既保留局部纹理信息,又避免内容泄露。
优化与控制
- 动态质量优化:使用 MotionAdapter 的时序注意力模块,通过调节 α 参数控制动态效果。α=0 保持原始效果,α=1 生成静态视频,α=-1 增强动态范围。
- 精确内容控制:采用 gray tile ControlNet 设计,移除颜色信息避免对风格迁移的干扰。复制一半 vanilla DiT 块作为控制层,与风格 DiT 模块特征相加,确保内容和风格平衡。
交互式视频游戏生成 ——GameFactory
视频模型在视频生成和物理模拟中的潜力使其成为未来游戏引擎的有力候选者。AI 驱动的引擎能够通过自动化生成游戏内容,显著减少传统开发中的工作量。然而,现有研究多局限于过拟合特定游戏(如《DOOM》、《Minecraft》、《Super Mario Bros》等),限制了模型创建全新游戏场景的能力,同时高昂的动作标注数据成本进一步增加了实现泛化的难度。因此,提升场景泛化能力成为生成式游戏引擎发展的关键方向。
为解决这一挑战,可灵研究团队提出了 GameFactory 框架。通过结合少量 Minecraft 的高质量动作标注数据与预训练视频生成模型,GameFactory 探索了一条基于在开放域非标注视频数据上预训练的经济可行路径。
该方法能够将从小规模标注数据集中学习到的物理控制知识泛化到开放域场景,不仅显著提升了场景泛化能力,还为解决具身智能、自动驾驶等复杂领域的问题带来了更多可能。
其核心创新包括多阶段解耦训练策略,将游戏风格学习与动作控制学习分离,避免生成内容受特定风格限制;自回归生成机制,支持无限长的动作可控视频生成,满足持续游戏的实际需求;以及开源高质量数据集 GF-Minecraft,有效克服传统标注数据中的人类偏差,为未来的研究提供了坚实基础。
,时长01:14
- 论文标题:GameFactory: Creating New Games with Generative Interactive Videos
- 项目主页:https://vvictoryuki.github.io/gamefactory
- 代码:https://github.com/KwaiVGI/GameFactory
- 论文:https://arxiv.org/abs/2501.08325
- GF-Minecraft 训练数据集: https://huggingface.co/datasets/KwaiVGI/GameFactory-Dataset
1. GameFactory 效果展示
以下展示 GameFactory 的效果:
(1)开放域的可控游戏视频生成能力。如下所示,利用预训练视频大模型的强大生成先验,GameFactory 将能够生成训练时没有见过的游戏场景,并泛化游戏动作的控制能力。
,时长00:05
(2)无限长可控游戏视频的生成能力。如下所示,展示了 GameFactory 通过自回归的方式生成几十秒可控游戏长视频的效果。
,时长00:21
2. GameFactory 方法介绍
下图展示了 GameFactory 的设计思想,如何利用预训练的大型视频生成模型与动作控制模块生成新游戏。蓝色上半部分展示了通过海量无标注开放领域数据预训练的大型视频生成模型,具备强大的开放领域视频生成能力,提供丰富的生成基础;绿色下半部分则展示了从少量标注的游戏动作数据中训练出的动作控制模块如何与预训练模型结合,生成受动作控制的动态内容。通过将两者有机结合,GameFactory 能够实现从视频生成到动作控制的泛化,最终支持创建新游戏及其他受控场景的开发。
下图展示的是动作控制模块,其是视频生成模型实现互动性的关键设计。
如图中(a)部分所示,通过与 Transformer 结构的深度结合,让模型具备响应用户输入的能力。如图中(b)部分所示,模块针对连续的鼠标信号和离散的键盘指令设计了不同的处理机制。此外如图(c)中所示,模块引入了动作分组机制,解决了动作信号与潜在特征在时间粒度上的不匹配问题,同时设计了了滑动窗口机制捕捉延迟动作对多帧画面的影响。
通过这一架构,视频生成模型不仅能生成高质量内容,还能动态响应用户指令,为互动式视频和游戏生成带来新的可能。
下图展示了一个分阶段的训练策略,旨在实现动作控制与开放领域内容生成的有效结合。
- Phase #0 通过在开放领域数据上预训练视频生成模型,为模型提供可泛化的生成能力;
- Phase #1 使用游戏数据进行 LoRA 微调,学习特定的游戏风格;
- Phase #2 在固定模型其他部分的情况下,训练动作控制模块,实现与风格无关的动作响应能力;
- Phase #3 通过推理结合动作控制模块和预训练模型,生成受动作信号控制的开放领域视频内容。
这种设计将风格学习与动作控制分离,不仅保留了开放领域的生成能力,还通过动作控制模块实现了场景泛化和用户指令的响应,充分展示了模型的灵活性和适应性。
下图展示了自回归视频生成的过程,包括训练阶段和推理阶段。在训练阶段(左图),模型使用前面若干帧作为条件帧,预测后续的帧。条件帧的数量是随机选定的,损失函数专注于预测噪声帧的部分,从而优化模型的生成能力。在推理阶段(右图),模型通过自回归的方式逐帧生成视频内容,每次使用历史视频的潜在特征作为条件,逐步生成新的帧。这样的设计保证了训练时的多样性和推理时生成内容的连贯性,能够生成高质量、动态一致的视频内容。
3. GF-Minecraft 数据集
GF-Minecraft 数据集的设计充分考虑了动作可控视频生成的核心需求,具有以下显著特点。
首先,数据集通过可自定义的动作序列实现了低成本的大规模数据采集,同时确保动作序列具有随机性和多样性,从而覆盖了低概率但关键的动作组合。
其次,Minecraft 平台的多样化开放世界环境以及丰富的动作空间为捕捉场景物理动态提供了理想条件。
为了增强多样性,数据采集预设了三种生物群落(森林、平原、沙漠)、三种天气状态(晴天、下雨、雷暴)和六种时间段(如日出、正午、午夜),生成了超过 2,000 个视频片段,每个片段包含 2,000 帧,并配有由 MiniCPM-V 多模态语言模型生成的文本描述。这些设计使得该数据集能够有效支持动作可控和场景泛化的视频生成模型训练,尤其在多样性和场景描述的精细度上提供了极大优势。下面是一个数据标注的示例:
4. 未来展望
展望未来,可灵研究团队提出的 GameFactory 不仅是一个用于创建新游戏的工具,更是一个具有广泛应用潜力的通用世界模型。该模型能够将从小规模标注数据集中学到的物理知识泛化到开放领域场景,解决包括自动驾驶和具身智能等领域中的关键挑战,这些领域同样面临缺乏大规模动作标注数据集的问题。
在本文中,研究团队通过 GameFactory 提出了一种利用生成式交互视频来创建新游戏的框架,填补了现有研究在场景泛化能力上的重要空白。然而,生成式游戏引擎的研究仍面临诸多挑战,例如关卡和玩法的多样性设计、玩家反馈系统、游戏内对象的操控、长上下文记忆,以及实时游戏生成等复杂问题。GameFactory 是可灵在这一领域迈出的第一步,未来将继续努力,向实现一个全面的生成式游戏引擎目标迈进。
结语
视频生成本身时空建模难度高,准确体现用户意图在视频中是一项巨大的挑战,这些挑战导致视频生成的 “抽卡率” 较高。为了应对这些问题,核心思路是通过多模态的用户意图输入来提升视频生成的可控性和精确性。可灵在三维空间控制(SynCamMaster)、运动轨迹控制(3DTrajMaster)和内容风格控制(StyleMaster)三个方向上进行了具有代表性的探索。此外,通过多轮次的多模态用户意图交互(GameFactory),展示了视频生成技术在游戏创作等领域的广阔应用前景。这些技术通过更好地理解和整合多模态用户意图来降低视频生成的 “抽卡率”。
可灵正在用技术创新推动着视频生成领域走向更远的未来。在这个充满无限可能的领域,期待看到更多令人欣喜的发展,让 AI 创作的边界不断拓展,让创作者能够更自由地表达他们的想象力;让视频生成能够为更多领域带来新探索的可能性。
欢迎大家在可灵 AI 平台体验最新最强的视频生成技术:https://klingai.kuaishou.com/。欢迎大家关注可灵 AI 研究的最新进展,一起思考、探索视频生成的新前景。欢迎大家加入可灵 AI 团队(欢迎联系 zhangluowa@kuaishou.com),共同创造未来的视频生成!
#回顾 LLM 领域的一些热词
本文回顾了2024年LLM领域的一些热门词汇和相关技术,包括MoE、Agent/Agentic、Sora、GraphRAG、GPT-4o、o1、ORM、PRM、Self-Play、Self-Rewarding等,并对其背景、应用及未来趋势进行了简要分析和调侃,展现了这些技术在LLM发展中的作用和影响。
以下热词并不局限于24年,也没有囊括完24年,看看有没有你很眼熟的呢[ MoE,Agent/Agentic,Sora,GraphRAG,GPT-4o,o1,ORM,PRM,test-time compute,Inference Scaling Laws,MCTS,Self-Play,Self-Rewarding,RFT,PPO,DPO,GRPO ......]
叠下甲:
“中文”字段取最常见的中文叫法,若没有就是硬翻;
“相关”字段为其相关的同类,不一定全;
“出处”取互联网搜到的,不一定准;
“胡侃”字段权当看个乐子,一家之言;
欢迎评论区给出意见,接下来开始
MoE
全称:Mixture-of-Experts
中文:混合专家(模型)
出处:最早这个概念是 Hinton 老爷子在1991年发表的《Adaptive Mixtures of Local Experts》[1] 中提出,然后在23年3月 GPT-4 发布后火了一把,因为黑客的小道消息传其使用了 MoE 架构,之后23年12月 Mistral AI 发布了首个开源的 MoE 架构模型 Mixtral-8x7B [2],接着24年1月 DeepSeek 发布了国内首个开源的 MoE 架构模型 DeepSeekMoE [3]。
胡侃:2024年模型上以 DeepSeekMoE 开头,以为 MoE 架构会在24年大放异彩,但中途被 o1 截胡,不过在年尾 DeepSeek-V3 [4] 还是挽了下 MoE 的尊。但是 V3 这么大,下载量截止目前已经有155K [5] 了,大家都这么富裕了吗?
Agentic
中文:智能体化
出处:说 Agentic 肯定要先说 Agent,这个词很早就有了,但在 LLM 领域最早认为是 OpenAI 在23年6月的一篇博客中《LLM Powered Autonomous Agents》[6] 对 LLM 中的 Agent 进行了一个较为综合的定义,之后 OpenAI 在23年12月份发布的《Practices for Governing Agentic AI Systems》 [7] 提到了 Agentic 这个词。
胡侃:2024 应用上以 Agent/Agentic 开头,以为24年将会遍地开花,但在24年的结尾来看水花不大,不过 Anthropic 在24年结尾的 《Building effective agents》[8] 写的真实在。目前大家的 Agent 大部分本质就是 Workflow + Prompt,但汇报还是得用“Agent”讲故事。
Sora
出处:24年2月OpenAI发布的视频生成模型。
相关:24年6月快手可灵,7月智谱清影,8月 MiniMax video-01,9月字节 PixelDance 和 Seaweed 。
胡侃:24年尾巴上了,终于可以掏钱体验 Sora 了,体验之后发现和年初吹的牛皮差的有点距离呀!
GraphRAG
中文:图检索增强生成
出处:微软在24年4月于《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》[9] 中提出。
相关:RAG 这个概念最早是由 Meta 在20年于《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》[10]中提出,目前各种 RAG 层出不穷,不在此叙述了。
胡侃:当前 RAG 已经成为了一种解决 LLM 知识时效性差、幻觉、领域专业性欠缺等问题的范式,24年 RAG 方向的工作依然很火热,毕竟能真实应用落地,LLM 落地的一根大拐杖。但 Graph 的方式是不是 RAG 的正确打开方式呢?
GPT-4o
出处:24年5月 OpenAI 发布的多模态模型。
相关:24年7月阶跃 Step-1.5V,9月 Meta Llama 3.2 ,9月 Mistral AI Pixtral 12B,10月阿里 Qwen2-VL,10月百川 Baichuan-Omni。
胡侃:4o 三模端到端,但24年来看多模态依然前路漫漫,未来的 AGI 一定是多模态的,但现在的 AGI 还是文本的。
o1
出处:24年9月 OpenAI 发布的推理模型。
相关:24年11月阿里 QwQ-32B-Preview,11月 DeepSeek-R1-Lite,11月月暗 k0-math,12月智谱 GLM-Zero-Preview
胡侃:2024 真神降临!
接下来是和 o1 相关的热词,毕竟下半年大家都在研究 o1
ORM;PRM
全称:Outcome-supervised Reward Model;Process-supervised Reward Model
中文:结果监督奖励模型;过程监督奖励模型
出处:早在23年5月 OpenAI 的《Let's Verify Step by Step》[11]就提出了。
胡侃:o1 横空出世后,大家都在解密他,PRM 应该是其核心的一个方法,大家开始训 PRM 了,但 OpenAI 有800K 的标注数据,虽然开源了,但没开源的有多少呢?
train-time compute;test-time compute
中文:训练时计算量;测试时计算量
出处:24年9月份 OpenAI 的《Learning to reason with LLMs》[12] 博客中提到。
胡侃:结合原文看
We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute)
时间长才会真的强。
Inference Scaling Laws/Test-Time Scaling
中文:推理扩展定律
出处:o1 发布后, Scaling Laws 的推理版本,准确的出处说不太清,这篇 Paper 实验做的不错《Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for LLM Problem-Solving》[13]
胡侃:开启一个新的阶段,老黄这张图不错
三个阶段
MCTS
全称:Monte Carlo Tree Search
中文:蒙特卡洛树搜索
出处:最早是 2006 年的《Bandit based Monte - Carlo Planning》[14] 提出
胡侃:o1 到底用没用?
猜测的 o1 推理范式:SA,MR,DC,SR,CI,EC
全称中文:
系统分析Systematic Analysis(SA)
方法重用Method Reuse(MR)
分而治之Divide and Conquer(DC)
自我改进Self-Refinement(SR)
上下文识别Context Identification (CI)
强化约束Emphasizing Constraints(EC)
出处:一篇研究 o1 的 Paper 猜测的 o1 推理范式 《 A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODEL》[15]
胡侃:你 Close 你的,我研究我的。
接下来是几个"self"
Self-Play
中文:自博弈
出处:第一次热是2016年AlphaGo大战李世石后,这次随着 o1 又热了起来,Self-Play 本身是正统RL里面的一个概念,24年8月份这篇综述不错《A Survey on Self-play Methods in Reinforcement Learning》[16]
胡侃:NLP 出身搞 LLM 的,接受正统 RL 的洗礼吧,下面缺一个卖 RL 课的广告...
Self-Rewarding
中文:自我奖励
出处:24年1月 Meta 在《Self-Rewarding Language Models》[17] 提到。
胡侃:就是不用人工来标数据了,让 LLM-as-a-Judge,但是感觉路漫漫。
Self-Correct/Correction
中文:自我纠错
出处:这个概念 LLM 出现后就有了,结合 RL 的24年9月 DeepMind 在《Training Language Models to Self-Correct via Reinforcement Learning》中提到[18]
胡侃:在o1发布的8天后, DeepMind 甩出了这篇 Paper,但声量似乎有点少。
Self-Refine
中文:自我优化
出处:一般指23年3月卡内基梅隆大学的这篇《Self-refine: Iterative refinement with self-feedback》[19]
胡侃:成为了众多 Paper 中的一个 Baseline。
Self-Reflection
中文:自我反思
出处:这个提到的比较多,贴几篇不错的
《Self-Reflection in LLM Agents: Effects on Problem-Solving Performance》[20];
《Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflection》[21];
《Towards Mitigating Hallucination in Large Language Models via Self-Reflection》[22]
胡侃:什么是人类的反思,什么是 LLM 的反思?
Self-Consistency
中文:自我一致性
出处:一般指23年Google的这篇《Self-Consistency Improves Chain of Thought Reasoning in Language Models》[23]
胡侃:期待更多实用的 ”self“,毕竟人类喜欢低耗能的事情,不喜欢自己动(洗数据)
RFT
全称:Reinforcement Fine-Tuning
中文:强化微调
出处:OpenAI 的 12 Days 第二天直播提出的,这是直播的视频[24],这是申请单[25]。
注意和字节 ReFT 的区别(所以到底有区别吗),OpenAI 的官方简称是RFT
Today, we're excited to introduce a new way of model customization for our O1 series: reinforcement fine-tuning, or RFT for short.
ReFT
全称:Reinforced Fine-Tuning
中文:强化微调
出处:24年1月字节在《ReFT: Reasoning with Reinforced Fine-Tuning》[26]提出
胡侃:从 OpenAI 目前披露出的消息,应该和字节的 ReFT 原理差的不是特别多,不过 OpenAI 概念的神,PPO~RFT,Reward Model ~ Verifier。但如果在专业领域,答案固定且 Verifier 也比较好定义的任务上,真的需要 “dozens of data” 就能够非常有效的话,想想还是挺期待的。不要再像 Sora 一样拖到 25 年底才能体验吧...
下面是几个"O"
PPO
全称:Proximal Policy Optimization
中文:近端策略优化
出处:2017年 OpenAI 在这篇《Proximal Policy Optimization Algorithms》[27]提出。
胡侃:以下 O 的老祖宗。
DPO
全称:Direct Preference Optimization
中文:直接偏好优化
出处:23年斯坦福在这篇《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》[28]提出。
胡侃:你的出现让中小作坊大喜!
GRPO
全称:Group Relative Policy Optimization
出处:DeepSeek 在24年2月《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》[29] 中提出。
胡侃:优雅实用高效
几个比较常见且已经有实现的"O"
ORPO
全称:Odds Ratio Preference Optimization
出处:KAIST AI 在24年3月份《ORPO: Monolithic Preference Optimization without Reference Model》[30]提出。
KTO
全称:Kahneman-Tversky Optimization
出处:24年2月份的《KTO: Model Alignment as Prospect Theoretic Optimization》[31] 提出
SimPO
全称:Simple Preference Optimization
出处:24年5月份的《SimPO: Simple Preference Optimization with a Reference-Free Reward》[32]提出
RLOO
全称:Reinforce Leave-One-Out
出处:Cohere For AI 在24年2月份的《Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs》[3] 提出
2024 结束,2025 的 GPT-5 ,o3 又将会掀起什么大风大浪呢?风浪越大鱼越贵!
参考
- https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf
- https://arxiv.org/pdf/2401.04088
- https://arxiv.org/pdf/2401.06066
- https://arxiv.org/pdf/2412.19437
- https://huggingface.co/deepseek-ai/DeepSeek-V3
- https://lilianweng.github.io/posts/2023-06-23-agent/
- https://cdn.openai.com/papers/practices-for-governing-agentic-ai-systems.pdf
- https://www.anthropic.com/research/building-effective-agents
- https://arxiv.org/pdf/2404.16130
- https://arxiv.org/abs/2005.11401
- https://arxiv.org/pdf/2305.20050
- https://openai.com/index/learning-to-reason-with-llms/
- https://arxiv.org/pdf/2408.00724
- http://ggp.stanford.edu/readings/uct.pdf
- https://arxiv.org/pdf/2410.13639
- https://arxiv.org/pdf/2408.01072
- https://arxiv.org/pdf/2401.10020
- https://arxiv.org/pdf/2409.12917
- https://arxiv.org/pdf/2303.17651
- https://arxiv.org/pdf/2405.06682
- https://arxiv.org/pdf/2310.11511
- https://arxiv.org/pdf/2310.06271
- https://arxiv.org/pdf/2203.11171
- https://www.youtube.com/watch?v=yCIYS9fx56U
- https://openai.com/form/rft-research-program/
- https://arxiv.org/pdf/2401.08967
- https://arxiv.org/pdf/1707.06347
- https://arxiv.org/pdf/2305.18290
- https://arxiv.org/pdf/2402.03300
- https://arxiv.org/pdf/2403.07691
- https://arxiv.org/pdf/2402.01306
- https://arxiv.org/pdf/2405.14734
- https://arxiv.org/pdf/2402.14740
#大模型LLM-微调经验分享&总结
本文总结了作者在ChatGLM-6B模型微调的经验,并汇总了目前开源项目&数据。
大型语言模型横行,之前非常焦虑,现在全面拥抱。目前也有很多开源项目进行大模型微调等,笔者也做了一阵子大模型了,特此来介绍一下ChatGLM-6B模型微调经验,并汇总了一下目前开源项目&数据。笔者与很多人微调结论不同,本人在采用单指令上进行模型微调,发现模型微调之后,「并没有出现灾难性遗忘现象」。
项目地址:https://github.com/liucongg/ChatGLM-Finetuning
ChatGLM-6B模型微调
模型越大对显卡的要求越高,目前主流对大模型进行微调方法有三种:Freeze方法、P-Tuning方法和Lora方法。笔者也通过这三种方法,在信息抽取任务上,对ChatGLM-6B大模型进行模型微调。为了防止大模型的数据泄露,采用一个领域比赛数据集-汽车工业故障模式关系抽取(https://www.datafountain.cn/competitions/584),随机抽取50条作为测试集。
详细代码见上面的GitHub链接,并且也被ChatGLM官方收录。
Freeze方法
Freeze方法,即参数冻结,对原始模型部分参数进行冻结操作,仅训练部分参数,以达到在单卡或不进行TP或PP操作,就可以对大模型进行训练。
微调代码,见finetuning_freeze.py,核心部分如下:
for name, param in model.named_parameters():
if not any(nd in name for nd in ["layers.27", "layers.26", "layers.25", "layers.24", "layers.23"]):
param.requires_grad = False
针对模型不同层进行修改,可以自行修改。训练代码均采用DeepSpeed进行训练,可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text等,可根据自己的任务配置。
CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_freeze.py --num_train_epochs 5 --train_batch_size 2
三元组抽取的推理代码,见predict_freeze.py,其他任务可以根据自己的评价标准进行推理预测。
PT方法
PT方法,即P-Tuning方法,参考ChatGLM官方代码(https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md) ,是一种针对于大模型的soft-prompt方法。
- P-Tuning(https://arxiv.org/abs/2103.10385),仅对大模型的Embedding加入新的参数。
- P-Tuning-V2(https://arxiv.org/abs/2110.07602),将大模型的Embedding和每一层前都加上新的参数。
微调代码,见finetuning_pt.py,核心部分如下:
config = ChatGLMConfig.from_pretrained(args.model_dir)
config.pre_seq_len = args.pre_seq_len
config.prefix_projection = args.prefix_projection
model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir, cnotallow=config)
for name, param in model.named_parameters():
if not any(nd in name for nd in ["prefix_encoder"]):
param.requires_grad = False
当prefix_projection为True时,为P-Tuning-V2方法,在大模型的Embedding和每一层前都加上新的参数;为False时,为P-Tuning方法,仅在大模型的Embedding上新的参数。
可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text、pre_seq_len、prompt_text等, 可根据自己的任务配置。
CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_pt.py --num_train_epochs 5 --train_batch_size 2 --pre_seq_len 16
三元组抽取的推理代码,见predict_pt.py,其他任务可以根据自己的评价标准进行推理预测。
Lora方法
Lora方法,即在大型语言模型上对指定参数增加额外的低秩矩阵,并在模型训练过程中,仅训练而外增加的参数。当“秩值”远小于原始参数维度时,新增的低秩矩阵参数量很小,达到仅训练很小的参数,就能获取较好的结果。
- Lora论文:https://arxiv.org/abs/2106.09685
- 官方代码:https://github.com/microsoft/LoRA
- HuggingFace封装的peft库:https://github.com/huggingface/peft
微调代码,见finetuning_lora.py,核心部分如下:
model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir)
config = LoraConfig(r=args.lora_r,
lora_alpha=32,
target_modules=["query_key_value"],
lora_dropout=0.1,
bias="none",
task_type="CAUSAL_LM",
inference_mode=False,
)
model = get_peft_model(model, config)
可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text、lora_r等,可根据自己的任务配置。
CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_lora.py --num_train_epochs 5 --train_batch_size 2 --lora_r 8
三元组抽取的推理代码,见predict_lora.py,其他任务可以根据自己的评价标准进行推理预测。
注意:对于结果需要保持一致的任务(即关掉dropout,解码关掉do_sample),需要保存模型的adapter_config.json文件中,inference_mode参数修改成false,并将模型执行model.eval()操作。主要原因是chatglm模型代码中,没有采用Conv1D函数。
三元组抽取实验结果
- 模型训练时,最大长度为768,Batch大小为2,训练轮数为5,fp16训练,采用DeepSpeed的Zero-1训练;
- PT为官方的P-Tuning V2训练方法,PT-Only-Embedding表示仅对Embedding进行soft-prompt,Freeze仅训练模型后五层参数,Lora采用低秩矩阵方法训练,秩为8;
- 由于之前训练PT在48G-A40显卡上会出现OOM,因此之前进行PT实验时对模型开启了gradient_checkpointing_enable,使得模型显存占用变小,但训练时长增加。
- 训练示例:
prompt_text:你现在是一个信息抽取模型,请你帮我抽取出关系内容为\"性能故障\", \"部件故障\", \"组成\"和 \"检测工具\"的相关三元组,三元组内部用\"_\"连接,三元组之间用\\n分割。文本:
输入:故障现象:发动机水温高,风扇始终是低速转动,高速档不工作,开空调尤其如此。
输出:发动机_部件故障_水温高\n风扇_部件故障_低速转动
时间换空间,可用很好的解决显卡的资源问题,简单玩玩还可以,如果想要模型达到最优效果或可用快速看到效果,还不如租张A100卡,快速实验,推理阶段再用自己的小破卡。
笔者找到一家新的算力平台-揽睿星舟,单张A100仅要6.4元/小时,我翻了一圈,算是便宜的了(反正比AutoDL便宜一点,便宜一点是一点吧)。
下面实验结果均是在租的80G-A100上进行的实验,与Github里用的A40的实验结果会有些差异,主要在训练时长(纯训练速度,剔除模型保存的时间)。说实话,真的要训练一个大模型,多个A100是必不可少的,可以减少很多模型并行的操作,效果上也更好把控一些。
微调方法 | PT-Only-Embedding | PT | Freeze | Lora |
显卡占用 | 37G | 56G | 24G | 39G |
总参数 | 6.259B | 7.211B | 6.255B | 6.259B |
可训练参数占比 | 0.0586% | 13.26% | 16.10% | 0.0586% |
训练耗时 | 20min | 52min | 46min | 25min |
测试结果F1 | 0.0 | 0.6283 | 0.5675 | 0.5359 |
结果分析:
- 效果为PT>Freeze>Lora>PT-Only-Embedding;
- 速度为PT-Only-Embedding>Lora>Freeze>PT;
- PT-Only-Embedding效果很不理想,发现在训练时,最后的loss仅能收敛到2.几,而其他机制可以收敛到0.几。分析原因为,输出内容形式与原有语言模型任务相差很大,仅增加额外Embedding参数,不足以改变复杂的下游任务;
- PT方法占用显存更大,因为也增加了很多而外参数;
- 测试耗时,采用float16进行模型推理,由于其他方法均增加了额外参数,因此其他方法的推理耗时会比Freeze方法要高。当然由于是生成模型,所以生成的长度也会影响耗时;
- 模型在指定任务上微调之后,并没有丧失原有能力,例如生成“帮我写个快排算法”,依然可以生成-快排代码;
- 由于大模型微调都采用大量instruction进行模型训练,仅采用单一的指令进行微调时,对原来其他的指令影响不大,因此并没导致原来模型的能力丧失;
- 上面测试仅代表个人测试结果。
很多同学在微调后出现了灾难性遗忘现象,但我这边并没有出现,对“翻译任务”、“代码任务”、“问答任务”进行测试,采用freeze模型,可以用test_forgetting.py进行测试,具体测试效果如下:
- 翻译任务
- 代码任务
- 问答任务
后面会把生成任务、分类任务做完,请持续关注Github,会定期更新。(太忙了,会抓紧时间更新,并且官方代码也在持续更新,如遇到代码代码调不通的情况,请及时联系我,我在github也给出了我的代码版本和模型版本)
中文开源大模型&项目
虽然出来很多大模型,但Open的&中文可直接使用的并不多,下面对中文开源大模型、数据集和项目进行一下汇总。
中文开源大模型
直接可微调,无需指令增量训练:
- ChatGLM-6B:https://huggingface.co/THUDM/chatglm-6b
- ChatYuan-large-v2:https://huggingface.co/ClueAI/ChatYuan-large-v2
原始模型多语言or英文,需要中文指令数据集增量训练:
- BloomZ:https://huggingface.co/bigscience/bloomz
- LLama:https://github.com/facebookresearch/llama
- Flan-T5:https://huggingface.co/google/flan-t5-xxl
- OPT:https://huggingface.co/facebook/opt-66b
中文开源指令数据
下面中文指令集,大多数从Alpaca翻译而来,请看下面项目中data目录。目前通过ChatGPT或者GPT4作为廉价标注工为自己的数据进行数据标注一个不错的思路。
- [1]:https://github.com/LC1332/Chinese-alpaca-lora
- [2]:https://github.com/hikariming/alpaca_chinese_dataset
- [3]:https://github.com/carbonz0/alpaca-chinese-dataset
- [4]:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
- [5]:https://github.com/LianjiaTech/BELLE
- [6]:https://huggingface.co/datasets/JosephusCheung/GuanacoDataset
开源项目
总结下面较火的开源项目:
- BELLE:https://github.com/LianjiaTech/BELLE
- ChatGLM:https://github.com/THUDM/ChatGLM-6B
- Luotuo-Chinese-LLM:https://github.com/LC1332/Luotuo-Chinese-LLM
- stanford_alpaca:https://github.com/tatsu-lab/stanford_alpaca
总结
目前各大厂的大模型陆陆续续放出,堪称百家争鸣!个人玩家也是全面拥抱,想尽一切办法来训练微调大模型。只愿大家以后可以实现“大模型”自由。愿再无“model-as-a-service”。
#多重可控插帧视频生成编辑
Adobe这个大一统模型做到了,效果惊艳
本文一作 Maham Tanveer 是 Simon Fraser University 的在读博士生,主要研究方向为艺术视觉生成和创作,此前在 ICCV 发表过艺术字体的生成工作。师从 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 并担任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry) Zhao 在 Adobe Research 担任 Research Scientist, 研究方向为多模态可控生成和编辑,有丰富的交叉方向研究经历(图形学 + 图像 + 人机交互),致力于开发可以让用户更高效进行设计创作的算法和工具。
继 Firefly 视频大模型公布后,Adobe 的研究者在如何更好的控制视频的生成和编辑进行了更深入的研究。近日,Adobe 提出了一个统一模型,除了传统的根据图片生成动画的功能(image animation)外,同时支持各种模态的控制,包括关键帧 (keyframes)、运动轨迹 (sparse trajectory)、掩码(mask)、引导像素(guiding pixels)、文本等。
,时长00:04
论文中的 demo 让人眼前一亮,下面一起来看看模型的效果:
1. 运动轨迹 (sparse trajectory)
通过提供简单的轨迹笔画,小熊栩栩如生地动起来了。
2. 掩码(Mask)
MotionBridge 不仅可以控制物体的运动,如图所示,将简单的运动笔画和 mask 结合起来,模型也可以轻松控制镜头视角。
如上所示的 mask 描绘了变动(dynamic)区域,同样 mask 也可以指定不动的(static,红色)区域。描绘出整座桃林围着城堡旋转的景象。
让我们看看同样的图像和运动轨迹,不同 mask 作用下的结果吧。
3. 引导像素 (guiding pixels)
通过将想要的像素区域粘贴在指定帧的指定位置,就可以进行更精准的像素控制。如:船在指定时间 “航行” 到指定位置。
4. 关键帧 (keyframes)
提供关键帧,模型可以在关键帧之间生成中间帧,实现场景的平滑切换。在视频内容创作、动画制作、视频合成等方面都有至关重要的作用,例如长视频合成 / 生成。除了可以生成有别于以往插帧方法更丰富困难的动作,还可以自然和多种模态控制结合。
通过运动轨迹控制,三个小球可以自由在彭罗斯阶梯分别滚动。
加上 mask,操控飞船左右摆动也不在话下,连洒下来的光也追随移动
动静结合,万圣节装扮的动图也可以多种多样:
当采用同一帧作为首位帧,还可以产生循环播放的奇妙效果:
当然,卡通视频也不在话下:
也可以进行视角转化:
不单单可以进行新视频的生成和创作,MotionBridge 还可以改善图生视频或者文生视频的效果,减少歧义并增加视频复杂度和可控性。
除此之外,最常用的文本交互也是支持的。
更多的结果和应用,请参考官方视频。
技术概览
如今,已经有很多模型可以进行图生视频的创作,但生成的结果往往缺少可控性,用户要进行很多次的试错才能得到满意的结果。本文提出了一个名为 MotionBridge 的算法集成了多种可控信号,方便用户生成或者编辑现有的视频。不同于以往工作,MotionBridge 以插帧作为基本框架构建模型。即模型可以通过输入 1~n 张关键帧来生成对应视频,补全帧与帧之间的流畅过度。这个建模方式自然的保留了原本图生视频(image to video)的能力,同时提供了更高的可控性和视频生成质量。
然而,传统的插帧方法还具有一定的局限性,传统方法一般分为运动估计和运动补偿两个步骤,但当输入帧之间的时间或空间间隔增大时,运动估计和补偿的难度呈指数级上升。这是因为要生成逼真的中间帧,就必须填补输入帧之间缺失的信息,而这往往需要合成全新的内容,这对于传统方法而言是一个巨大的挑战。
尽管近年来视频生成模型取得了显著进展,为插帧技术带来了新的可能性,但这些技术仍然存在不足。一方面,许多模型难以生成复杂的大动作,无法满足创作者对于丰富场景变化的需求;另一方面,即使能够生成高质量的视频,却常常缺乏对中间帧细节的精细控制,导致最终生成的视频与创作者的创意设想存在偏差。
因此,为了解决以上的难题,MotionBridge 第一次进行了统一多模态可控插帧视频模型的尝试。
相比于图生视频,可控插帧视频任务的复杂度更高。以运动轨迹控制为例,视频插帧不仅需要服从指定轨迹,还需要丝滑过度并在指定帧结束。即使轨迹不完整,模型也需要根据关键帧推测,往往生成的动作比图生视频更为复杂。而进行多模态控制会进一步提升问题难度。
为了确保模型的生成能力,MotionBridge 的设计基于 DiT 的模型架构并且具有普适性(backbone-agnostic)可以适用于任何形式的 DiT 架构。
技术要点
1. 分类编码控制信号:为了减少控制信号融合时的歧义,MotionBridge 将控制分为内容控制(如掩码和引导像素)和运动控制(如轨迹)两类,通过双分支嵌入器分别计算所需特征,再引导去噪过程。这样的设计能更精准地处理不同类型的控制信息。
2. 运动轨迹表征:用简单且准确的交互表征方式进行视频运动的控制颇具挑战。该模型提出一种生成器,它能从光流合成轨迹,并将其转换为稀疏 RGB 点,作为模型训练时的运动表示,有效提升了运动控制的准确性。
3. 空间内容控制表征:MotionBridge 不仅有传统的轨迹控制,还增加了掩码和引导像素等空间内容控制。用户可以指定想要移动或保持静止的区域,进一步降低生成过程中的歧义,提供更灵活的创作条件。
4. 训练策略:面对多模态控制,常规训练效果不佳。MotionBridge 采用 curriculum learning 策略,先给模型输入更密集、简单的控制,再逐渐过渡到更稀疏、高级的控制,确保模型能平稳学习各种控制方式。
对比实验
1. 与 SOTA 的算法相比,MotionBridge 在没有额外控制的干预下,可以生成更真实高质量的图片细节。并且证实了在不同 DiT 架构下的普适性。
2. 消融研究
a. 对于算法提出的分类编码融合(dual-branch)和 curriculum learning,文中也进行了实验。可以看出其设计对于模型理解轨迹控制输入以及视频生成质量起到了至关重要的作用。
b. 掩码(mask)的作用:定性实验表明在一些情况下,mask 的使用可以让模型更容易感知到主体,并且让用户可以以尽量少的交互达到想要的效果。比如当只有一个运动轨迹时,因为过于稀疏,狐狸的跳起空间有限。当额外将 mask 输入,狐狸的跳跃便更加连贯自然。而用户也不需要像之前的工作一样提供过多的轨迹笔画反复调试。
更多技术细节,对比实验请参考原文:https://motionbridge.github.io/static/motionbridge_paper.pdf
视频:https://motionbridge.github.io/static/motionbridge_1.mp4
#OSCAR让操作系统交互实现自然语言「自由」
本文作者王晓强,加拿大蒙特利尔大学(Université de Montréal)和 Mila 人工智能研究所博士生,师从刘邦教授。博士期间的主要研究方向为自然语言处理,重点关注大语言模型的能力评估及其在智能体中的应用。目前已在自然语言处理领域的顶级会议 ACL、EMNLP 等发表多篇论文。
在人工智能的宏大发展蓝图里,通用人工智能(AGI)堪称研究者们梦寐以求的 「圣杯」,其终极目标是打造出像人类一样拥有广泛且灵活智能的系统,能够理解、学习并胜任几乎所有任务。在迈向这个目标的征程中,实现人工智能与数字世界的高效交互至关重要,而桌面任务 UI 自动化更是其中的关键赛道。
想象一下,未来我们只需轻松说出指令,电脑就能自动完成各种复杂操作,繁琐的手动操作成为历史,工作效率大幅提升,这样的场景是不是很令人期待?
去年,Anthropic 发布的 Computer use 为 AI 在桌面操作领域带来了新突破。它允许开发者通过 API,让 Claude 像人类一样操作计算机,极大拓展了 AI 在桌面操作领域的应用场景。
今年一月份,OpenAI 重磅推出的 Computer Using Agent(CUA)也备受瞩目,其赋能的 Operator 凭借 GPT-4o 的视觉能力,能够 「看懂」网站并与之交互,还可在 ChatGPT 界面自动执行多种常规浏览器任务。
与它们采用商用 API 不同,今天要给大家介绍一个来自加拿大蒙特利尔大学和 Mila 研究所的研究团队的开源解决方案 ——OSCAR(Operating System Control via state-Aware reasoning and Re-planning)。
OSCAR 不仅实现了桌面任务 UI 自动化,还在多个操作系统环境(桌面 Windows、Ubuntu 和智能手机 Android)完成了泛化与验证。目前,该研究已被 AI 领域顶级会议 ICLR 录用。下面,就让我们深入了解一下它的创新之处。
- 论文题目:OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning
- 论文链接:https://arxiv.org/abs/2410.18963
操作系统 UI 交互自动化面临的挑战:
动态自适应难题
基于多模态大型语言模型(MLLM)的智能体(Agent)在复杂任务自动化领域表现出色,广泛应用于网络浏览、游戏、软件开发等场景,但不同应用的观察和动作空间差异极大,导致智能体通用性差,难以适应复杂工作流。
此外,以往的 UI 交互智能体多在静态离线的环境中开发,靠视觉问答和预设动作路径操作,缺乏操作系统实时反馈,任务失败时无法动态自适应。在现实应用中,实时反馈和自适应调整对适应新的 UI 环境至关重要,比如 「打开某文件并打印」 有多种操作路径,可通过开始菜单搜索,也能直接导航路径,但传统智能体难以应对这种多样性。
具体构建通用 UI 交互智能体面临以下挑战:
- 统一控制接口难题:智能体需熟练运用鼠标、键盘等标准输入方式,精准理解视觉信息并转化为指令,在不同应用中稳定高效操作。
- UI 定位困境:智能体要能解读屏幕信息,精准识别各类元素,如网页搜索时准确找到搜索框并正确交互,对其理解和定位能力要求高。
- 新 UI 探索与重规划挑战:智能体需像人类面对陌生软件一样,具备动态探索和调整计划的能力,能处理软件崩溃等意外,依据反馈优化策略。
OSCAR 的独特设计:
灵活状态机与动态重规划的巧妙结合
为解决上述难题,研究团队推出 OSCAR。它以代码为核心控制方式,与动态操作系统环境自主交互,创新点如下:
- 状态机架构:OSCAR 采用状态机模式,通过 [Init](初始化)、[Observe](观察)、[Plan](规划)、[Execute](执行)、[Verify](验证)等状态循环,处理任务各环节。遇到问题时利用实时反馈重新规划,比传统方式效率更高、适应性更强。
OSCAR 状态机
- 视觉和语义双重 UI 定位:OSCAR 利用 Set-of-Mark(SoM)提示技术和可访问性(A11Y)树生成视觉提示,精准定位 UI 元素;同时添加描述性标签进行语义定位,便于把握 UI 布局,灵活操作元素。
OSCAR 视觉和语义双重 UI 定位
- 任务驱动重新规划:受计划 - 解决提示(plan-and-solve)启发,OSCAR 将用户指令分解为子任务并逐步生成动作。收到负面反馈时,针对特定子任务重新规划,避免整体重规划,提高效率并防止错误传播。
- 基于代码的动作:OSCAR 借助生成的语义定位信息,利用元素 ID 或坐标引用交互元素,通过 PyAutoGUI 库生成控制代码,精确控制操作系统。
OSCAR 任务分解与重规划
OSCAR 实验验证:
UI 理解、定位和动态导航能力的实力认证
研究人员在 GAIA、OSWorld、AndroidWorld 等多个真实世界工作流自动化基准测评数据集中对 OSCAR 进行了评估,这些基准涵盖了不同难度和类型的任务,包括简单操作、复杂多步骤任务以及跨多种应用的任务。
1. 基准测评成绩突出:在 GAIA 基准测试中,OSCAR 在所有工作流复杂程度级别上都表现最佳。尤其是在最复杂的 Level 3 任务上,成功率达到 13.5%,几乎是之前最先进方法的两倍。在 OSWorld 和 AndroidWorld 基准测评中,OSCAR 同样超越其他智能体,展现出强大的适应性。
6a. GAIA 基准测评
6b. OSWorld 基准测评
6c. AndroidWorld 基准测评
OSCAR 在基准测评 GAIA, OSWorld 和 AndroidWorld 中取得最好水平
2. 规划效率优势显著:
在成功案例中,OSCAR 成功案例所需重新规划次数更少,而且每次重新规划的步骤更高效
在失败案例中,OSCAR 在错误完成(FC)、达到步骤限制(RSL)和无效动作(IA)这些情况中的重新规划冗余度(RR)明显低于其他智能体系统
结语:开启操作系统交互新时代
OSCAR 作为通用智能体,凭借灵活的状态机和动态的重新规划能力,在桌面和智能手机操作系统任务中展现出强大的适应性和有效性。它为自动化工作流提供了高效通用的解决方案,有望成为提升动态操作系统环境生产力的有力工具,让操作系统交互变得更加便捷、高效、易访问。而且,凭借其开源特性,未来 OSCAR 还将在众多开发者的共同努力下不断进化,持续助力通用人工智能与数字世界实现完美交互。
#o3-mini 碾压DeepSeek R1?
一条python程序引发近400万围观
AI 圈的头条被 DeepSeek 承包了十几天,昨天,OpenAI 终于坐不住了,推出了全新推理模型系列 o3-mini。不仅首次向免费用户开放了推理模型,而且相比之前的 o1 系列,成本更是降低了 15 倍之多。
OpenAI 也称这是其推理模型系列中最新、最具成本效益的模型:
刚刚上线,已经有网友迫不及待的拿它和席卷整个大模型圈的国产大模型 DeepSeek R1 进行对比了。
前段时间,AI 社区开始沉迷用 DeepSeek R1 和其他(推理)模型比拼这个任务:「编写一个 Python 脚本,让一个球在某个形状内弹跳。让该形状缓慢旋转,并确保球停留在形状内。」
这种模拟弹跳球的测试是一个经典的编程挑战。它相当于一个碰撞检测算法,需要模型去识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。编写不当的算法会出现明显的物理错误。
在 DeepSeek R1 席卷国内外热搜,微软、英伟达、亚马逊等美国云计算平台争先恐后引进 R1 的同时,R1 也在这个任务中完成了对 OpenAI o1 pro 的碾压。
再看 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 的生成结果,DeepSeek 旗下的开源模型高出的确实不只是一个 level。
然而,在 o3-mini 上线后,剧情似乎一夜反转了,比如这个帖子宣称 OpenAI o3-mini 碾压了 DeepSeek R1。目前已引发近 400 万网友围观。
该开发者用的 prompt 是:"write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically"
也就是分别让 o3-mini 和 DeepSeek R1 写一个球在旋转的六边形内弹跳的 python 程序,小球跳动的过程中要遵循重力和摩擦力的影响。最后的展示效果如下:
从效果来看,o3-mini 把碰撞、弹跳效果展示的更好。从对重力和摩擦力的理解来看,DeepSeek R1 版本的小球似乎有点压不住牛顿的棺材板了,完全不受重力控制。
这并非个案,@hyperbolic_labs 联合创始人 Yuchen Jin 在此之前也发现了这个问题,他分别向 DeepSeek R1 和 o3-mini 输入了提示词:write a python script of a ball bouncing inside a tesseract(编写一个 Python 脚本,模拟一个球在四维超立方体内部弹跳)。
四维超立方体的每个顶点与四条棱相邻,每条棱则连接两个立方体。四维空间内的几何图形超出了人类的直观感知范围,所以听着这些描述,我们可能很难想象出一个四维超立方体长什么样子。
而 o3mini 不仅展现出了稳定的几何结构,小球在四维空间内弹跳的运动轨迹也较为灵活,有撞到立方体侧面的打击感。
再来看 DeepSeek R1 这边,它对四维超立方体的形状理解似乎还不够深入透彻。同时,小球在其中的运动轨迹也显得有些诡异,有一种「飘忽不定」的感觉。
据 Yuchen Jin 称,他试了很多次,所有用 DeepSeek R1 尝试都比一次性的 o3-mini 要差,比如下面这次就剩下球了。
机器之心也亲测了一把,同样是 Pass@1 测试,DeepSeek R1 这次是既有球又有几何外框了,甚至小球还会变换颜色色,遗憾的是,它把四维超立方体简化成了三维空间坐标轴。
o3-mini 的表现则有些「买家秀」的意味,明明和 Yuchen Jin 输入的是完全一样的提示词,为什么 o3-mini 就不会了?得不到如上所示的「卖家秀」了呢?
看来,在生成小球在几何外框内跳动的程序这方面,DeepSeek R1 并不是完全是 o3-mini 的手下败将。
AIGC 从业者 @myapdx 用了一个更加复杂的同类提示词来测试 o3-mini 和 DeepSeek R1:编写一个 p5.js 脚本,模拟 100 个彩色小球在一个球体内部弹跳。每个小球都应留下一条逐渐消失的轨迹,显示其最近的路径。容器球体应缓慢旋转。请确保实现适当的碰撞检测,使小球保持在球体内部。
o3-mini 的效果是这样的:
提示词里的这么多项要求:在球体内部弹跳、留下逐渐消失的轨迹、容器缓慢旋转......o3-mini 都完美满足。
而 DeepSeek R1 的效果,好像也没差到哪里去:
至于为什么会出现这样的差异,Yuchen Jin 和 @myapdx 都在帖子中提到,这个任务对模型如何理解真实世界的物理规律有所反应。模型需要综合自己对语言、几何、物理和编程的理解,方能得出最后的模拟结果。从前两轮的结果看来,o3-mini 有可能是物理学得最好的大模型。
与此同时,OpenAI 也在昨天的发布博客中强调过,在博士极科学问题方面 o3-mini-low 的表现优于 o1-mini。o3-mini-high 的表现与 o1 相当,在博士级生物学、化学和物理问题上都有显著进步。
对人类来说,理解小球跳动时的重力和摩擦力并不算困难,但在大语言模型领域,这种对物体物理状态的「世界模型」理解能力,直到最近才真正突破。
还有网友猜测,DeepSeek R1 的程序有时只有一个球,会不会是它想得太多了?
不知是否有读者亲自体验过?欢迎讨论。
参考链接:
https://x.com/flavioAd/status/1885449107436679394
https://x.com/iamRezaSayar/status/1885760491466997791