自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1375)
  • 收藏
  • 关注

原创 MiMo-Embodied:小米X-具身基础模型

25年11月来自小米具身智能团队的论文“MiMo-Embodied: X-Embodied Foundation Model Technical Report”。开源的模型 MiMo-Embodied,是整合自动驾驶和具身人工智能并取得最先进性能的跨具身基础模型。MiMo-Embodied 在任务规划、affordance 预测和空间理解等 17 项具身人工智能基准测试中均创下新纪录,同时在环境感知、状态预测和驾驶规划等 12 项自动驾驶基准测试中也表现出色。在这些任务中,MiMo-Embodied 的

2025-12-11 00:15:00 403

原创 VIRAL:用于人形机器人运动操控的大规模视觉模拟-到-现实迁移

25年11月来自Nvidia、CMU、UC Berkeley和香港中文大学的论文“VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation”。人形机器人实际部署的一大障碍是缺乏自主移动操作技能。VIRAL,一个视觉化的仿真-到-真实框架,它完全在仿真环境中学习人形机器人的移动操作,并将其零样本部署到真实硬件上。VIRAL 采用师-生模型设计:一个具有特权的强化学习教师模型,基于完整状态进行操作,利用增量动作空间和参考状态初始化学习

2025-12-11 00:15:00 892

原创 NORA-1.5:一种基于世界模型和基于动作偏好奖励训练的视觉-语言-动作模型

25年11月来自南洋理工、Lambda实验室和新加坡技术和设计大学的论文“NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards”。视觉-语言-动作(VLA)模型近年来在各种具身任务中展现出令人瞩目的性能,但其可靠性和泛化能力仍有待提高,尤其是在不同具身或真实世界环境中部署时。本文提出一种基于预训练NORA主干网络的VLA模型NORA-1.5,并为其添加

2025-12-10 00:15:00 1034

原创 MHR:动量人体模型

25年11月来自Meta的论文“MHR: Momentum Human Rig”。MHR,一个参数化人体模型,它结合ATLAS的解耦骨骼/形状范式以及受Momentum库启发的灵活、现代的绑定和姿态校正系统。该模型能够实现富有表现力且符合解剖学原理的人体动画,支持非线性姿态校正,并专为与AR/VR和图形学流水线的稳健集成而设计。

2025-12-10 00:15:00 1227

原创 具身系统中的生成式AI:性能、效率和可扩展性的系统级分析(上)

25年4月来自Georgia Tech、明尼苏达大学和哈佛大学的论文“Generative AI in Embodied Systems: System-Level Analysis of Performance, Efficiency and Scalability”。具身系统利用大语言模型(LLM)驱动的集成感知、认知、行动和高级推理能力,使生成式自主智体能够与物理世界互动,从而在现实世界环境中处理复杂、长周期、多目标任务方面具有巨大潜力。然而,由于运行时延迟过长、可扩展性有限以及系统对环境因素高度

2025-12-09 00:15:00 754

原创 具身系统中的生成式AI:性能、效率和可扩展性的系统级分析(下)

25年4 月来自Georgia Tech、明尼苏达大学和哈佛大学的论文“Generative AI in Embodied Systems: System-Level Analysis of Performance, Efficiency and Scalability”。具身系统利用大语言模型(LLM)驱动的集成感知、认知、行动和高级推理能力,使生成式自主智体能够与物理世界互动,从而在现实世界环境中处理复杂、长周期、多目标任务方面具有巨大潜力。然而,由于运行时延迟过长、可扩展性有限以及系统对环境因素高

2025-12-09 00:15:00 1335

原创 DexNDM:基于关节神经动力学模型弥合灵巧手内旋转的仿真-现实​​差距

25年10月来自清华、北大、上海姚期智研究院和银河通用机器人(Galbot)的论文“DexNDM: Closing the Reality Gap for Dexterous In-hand Rotation via Joint-wise Neural Dynamics Model”。在机器人领域,实现通用的手持物体旋转仍然是一项重大挑战,这主要是由于难以将仿真策略推广到现实世界。灵巧操作复杂且涉及大量接触的动力学特性造成“现实差距”,使得以往的研究仅限于几何形状简单、物体尺寸和长宽比有限、腕部姿态受限

2025-12-08 00:15:00 970

原创 DecoupledGaussian:基于物理交互的物体-场景解耦

25年3月来自爱丁堡大学、吉林大学、浙江大学和密西根州立的论文“DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction”。DecoupledGaussian 系统能够将静态物体与其在真实场景视频中捕捉的接触面解耦,这是实现逼真的基于牛顿力学物理模拟的关键前提。与以往专注于合成数据或沿接触面进行弹性抖动的方法不同,这些方法限制物体的全分离或独立运动,而 DecoupledGaussian 允许物体发生显著的位置变化,

2025-12-08 00:15:00 1037

原创 π*0.6:一个能从经验中学习的VLA模型

25年11月来自PI的博客((https://www.physicalintelligence.company/blog/pistar06)“π*0.6: a VLA that Learns from Experience“ 。如何学习组装纸箱?希望快速高效地完成,所以首先会教会一些基础知识:哪些策略有效,常见的错误有哪些,以及正确的技巧是什么。其次,一位优秀的老师不仅会演示如何操作,还会指导,纠正自行操作时犯的错误。但是,仅仅依靠指导是不够的:最终,熟能生巧,成为纸箱组装大师的第三步是反复练习,直到熟

2025-12-07 00:15:00 1400

原创 综述:大语言模型时代下的硬件与软件协同设计

24年10月来自杜克大学和 JHU 的论文“A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models”。大语言模型(LLM)的快速发展显著改变人工智能领域,展现出卓越的自然语言处理能力,并朝着多模态功能方向迈进。这些模型正日益融入各种应用,对研究和产业都产生深远的影响。然而,它们的开发和部署也面临着诸多挑战,包括对大量计算资源的需求、高能耗以及复杂的软件优化。与传统的深度学习系统不同,

2025-12-07 00:15:00 1118

原创 Alpamayo-R1:连接推理和动作预测,实现长尾环境下的可泛化自动驾驶

25年11月来自 Nvidia 的论文“Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail”。通过模仿学习训练的端到端架构通过扩展模型规模和数据量推动了自动驾驶技术的发展,但在安全至关重要的长尾场景中,由于监督信息稀疏且因果理解有限,其性能仍然脆弱。为了解决这个问题,本文引入 Alpamayo-R1 (AR1),这是一种视觉-语言-动作模型

2025-12-06 00:15:00 964

原创 AdaDrive:基于语言的自适应快-慢驾驶系统

25年11月来自香港中文大学(深圳)、深圳大数据研究院、中山大学、百度和广东大数据分析处理重点实验室的论文“AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving”。将大语言模型 (LLM) 有效集成到自动驾驶系统中,需要在利用高级推理能力和保持实时效率之间取得平衡。现有方法要么过于频繁地激活 LLM,导致计算开销过大;要么采用固定的调度方案,无法适应动态的驾驶环境。为了应对这些挑战, AdaDr

2025-12-06 00:15:00 746

原创 AnySplat:基于无约束视图的前馈 3D 高斯散射

25年9月来自中科大、上海AI实验室、香港中文大学、布朗大学、上海交大和香港大学的论文“AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views”。AnySplat,是一种用于从未经标定的图像集合中合成新视角的正向馈送网络。与需要已知相机姿态和逐场景优化的传统神经渲染流程,以及在密集视角计算量下难以应对的最近正向馈送方法不同,本文模型只需一次前向传递即可预测所有信息。一次前向传递即可生成一组 3D 高斯图元,这些图元编码场

2025-12-05 00:15:00 833

原创 iMoWM:驯服用于机器人操作的交互多模态世界模型

25年10月来自新加坡国立和清华的论文“iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation”。学习型世界模型在机器人操作领域具有巨大的潜力,因为它们可以作为真实世界交互的模拟器。尽管基于二维视频的世界模型已取得了长足的进步,但这些方法通常缺乏几何和空间推理能力,而这对于捕捉三维世界的物理结构至关重要。为了克服这一局限性,iMoWM,一种交互式世界模型,以自回归的方式,根据动作生成彩色图像、深度图和机器人手臂

2025-12-05 00:15:00 803

原创 PhysGen:基于刚体物理的图像-到-视频生成

24年9月来自UIUC的论文“PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation”。PhysGen 是一种图像-到-视频生成方法。该方法只需输入单张图像和一个条件(例如,作用于图像中物体的力和扭矩),即可生成逼真、符合物理规律且时间一致的视频。核心在于将基于模型的物理仿真与数据驱动的视频生成过程相结合,从而实现逼真的图像空间动态效果。该系统的核心由三个组件构成:(i)图像理解模块,能够有效地捕捉图像的几何形状、材质和物理参数;(ii)

2025-12-04 00:15:00 1465

原创 利用物理引导扩散模型生成稳定位置

25年9月来自多伦多大学、克罗地亚萨格罗布大学和 Vector 研究院的论文“Generating Stable Placements via Physics-guided Diffusion Models”。在多物体场景中稳定放置物体是机器人操作的一项基本挑战,因为放置必须避免穿透、建立精确的表面接触并达到力平衡。为了评估稳定性,现有方法依赖于运行仿真引擎或采用启发式的、基于外观的评估方法。相比之下,该方法将稳定性直接集成到扩散模型的采样过程中。为此,查询一个离线的基于采样规划器来收集多模态的放置标签

2025-12-04 00:15:00 1125

原创 PhysDreamer:基于物理的视频生成技术与 3D 物体进行交互

24年10月来自MIT、斯坦福、哥伦比亚和Cornell的论文“PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation”。逼真的物体交互对于创建沉浸式虚拟体验至关重要,然而,如何合成逼真的3D物体动态以响应新的交互仍然是一个巨大的挑战。与无条件或文本条件的动态生成不同,动作条件的动态需要感知物体的物理材料属性,并基于这些属性(例如物体刚度)来预测3D运动。然而,由于缺乏材料的真实数据,估计物理材料属性仍然是一

2025-12-03 00:15:00 1014

原创 DreamPhysics:利用视频扩散先验学习基于物理的3D动力学

24年12月来自哈工大、香港城市大学和华为的论文“DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors”。动态3D交互近年来备受关注。然而,创建此类4D内容仍然极具挑战性。一种解决方案是利用基于物理的模拟来制作3D场景动画,但这需要手动为物体赋予精确的物理属性,否则模拟结果会显得不自然。另一种解决方案是利用视频生成模型的蒸馏来学习3D物体的变形,但由于物理先验的提取和应用不当,这种方法往往会生成运动幅度小

2025-12-03 00:15:00 1146

原创 GSWorld:机器人操作中闭环照片-级真实感仿真套件

25年10月来自UCSD、UCLA和Meta的论文“GSWorld: Closed-Loop Photo-Realistic Simulation Suite for Robotic Manipulation”。GSWorld是一个鲁棒性强、照片级逼真的机器人操作模拟器,它结合3D高斯溅射(GS)和物理引擎。该框架提倡“闭环”策略开发,即通过对从真实机器人数据中学习的策略进行可复现的评估,以及无需使用真实机器人即可进行sim2real策略训练。为了实现各种场景的照片级逼真渲染,提出一种资源格式,称为GS

2025-12-02 00:15:00 863

原创 利用物理引导的视频扩散学习生成物体的交互

25年10月来自阿联酋 MBZUAI 和 Pinscreen公司的论文“Learning To Generate Object Interactions With Physics-Guided Video Diffusion”。近年来,视频生成模型取得了显著进展,并已应用于电影、社交媒体制作和广告等领域。除了其创作潜力之外,这些模型还有望成为机器人和具身决策领域的世界模拟器。然而,尽管取得了长足进步,现有方法在生成符合物理规律的物体交互方面仍然面临挑战,并且缺乏基于物理的控制机制。为了克服这一局限,Ki

2025-12-02 00:15:00 1297

原创 Isaac Lab:用于多模态机器人学习的GPU加速仿真框架

25年11月来自Nvidia的论文“Isaac Lab: A GPU-Accelerated Simulation Framework for Multi-Modal Robot Learning”。Isaac Lab,是 Isaac Gym 的自然继承者,将基于 GPU 的原生机器人仿真范式扩展到大规模多模态学习时代。Isaac Lab 融合高保真 GPU 并行物理引擎、照片级渲染以及模块化、可组合的架构,用于设计环境和训练机器人策略。除了物理和渲染之外,该框架还集成执行器模型、多频传感器仿真、数据采

2025-12-01 00:15:00 978

原创 Cosmos-Transfer1:具有自适应多模态控制的条件世界生成

25年4月来自Nvidia的论文“Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control”。Cosmos-Transfer1,是一种基于多种空间控制输入(例如分割、深度和边缘等不同模态)的条件世界生成模型,能够生成世界模拟。该模型采用自适应且可定制的空间条件方案,允许在不同的空间位置对不同的条件输入赋予不同的权重。这使得世界生成高度可控,并可应用于各种世界间迁移场景,包括 Sim2Real。本文进行广

2025-12-01 00:15:00 1254

原创 在物理人工智能中基于视频基础模型的世界模拟

25年11月来自英伟达的论文“World Simulation with Video Foundation Models for Physical AI”。Nvidia的 [Cosmos-Predict2.5],是 Cosmos 世界基础模型系列中最新一代的物理智能模型。[Cosmos-Predict2.5] 基于流程架构,将 Text2World、Image2World 和 Video2World 生成整合到一个模型中,并利用物理智能视觉-语言模型 [Cosmos-Reason1] 提供更丰富的文本基

2025-11-30 00:15:00 742

原创 URDF-Anything:使用 3D 多模态语言模型构建关节目标

25年11 月来自北大和西雅图华盛顿大学的论文“URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model”。构建精确的关节(铰接)体数字孪生模型对于机器人仿真训练和具身人工智能世界模型构建至关重要,但传统上需要耗费大量精力进行手动建模或采用多阶段流程。本文提出一种基于三维多模态大语言模型(MLLM)的端到端自动重建框架——URDF-Anything。URDF-Anything 利用基于点云和文本多模

2025-11-30 00:15:00 897

原创 PhysWorld:通过物理-觉察的演示合成从真实视频构建可变形体的世界模型

25年10月来自哈工大和华为诺亚实验室的论文“PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis”。模拟物体动力学的交互式世界模型对于机器人、虚拟现实(VR)和增强现实(AR)至关重要。然而,从有限的真实世界视频数据中学习符合物理规律的动力学模型仍然是一个巨大的挑战,尤其对于具有空间变化物理属性的可变形体而言更是如此。为了克服数据匮乏的难题,P

2025-11-29 00:15:00 1062

原创 EBT-策略:能量解锁涌现的物理推理能力

25年10月来自智澄AI、UIUC、清华和北大的论文“EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities”。由生成模型(例如扩散策略[5])参数化的隐式策略已成为机器人域策略学习和视觉-语言-动作(VLA)模型[26]的标准方法。然而,这些方法通常存在计算成本高、暴露偏差和推理动态不稳定等问题,导致在分布变化下出现发散。基于能量的模型(EBM)[28]通过端到端地学习能量景观并建模平衡动态来解决这些问题,从而提高鲁棒性并

2025-11-29 00:15:00 819

原创 Phys2Real:将VLM先验与交互式在线自适应相结合,实现不确定性-觉察的Sim2Real操作

25年10月来自斯坦福大学和普林斯顿大学的论文“Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation“。直接在现实世界中学习机器人操作策略可能既昂贵又耗时。虽然在仿真环境中训练的强化学习 (RL) 策略提供了一种可扩展的替代方案,但有效的仿真-到-现实迁移仍然具有挑战性,尤其是在需要精确动力学的任务中。为了解决这个问题,Phys2Real

2025-11-28 00:15:00 804

原创 Seed3D 1.0:从图像到高保真仿真就绪的 3D 资产

25年10月来自字节 Seed 的论文“Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets”。开发具身人工智能智体需要可扩展的训练环境,以平衡内容多样性和物理精度。世界模拟器可以提供这样的环境,但它们也面临着不同的局限性:基于视频的方法可以生成多样化的内容,但缺乏用于交互式学习的实时物理反馈;而基于物理的引擎可以提供精确的动力学,但由于手动创建资源成本高昂,其可扩展性受到限制。本文提出 Seed3D 1.0,一个基础模型

2025-11-28 00:15:00 1930

原创 大语言模型时代小语言模型的全面综述:技术、改进、应用、与大语言模型的协作以及可信度(上)

24年11月来自Penn State、UPenn、UT Health Huston、Amazon和RPI的论文“A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness”。大语言模型(LLM)在文本生成、问答和推理方面展现出卓

2025-11-27 00:15:00 1000

原创 大语言模型时代小语言模型的全面综述:技术、改进、应用、与大语言模型的协作以及可信度(下)

24年11月来自Penn State、UPenn、UT Health Huston、Amazon和RPI的论文“A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness”。大语言模型(LLM)在文本生成、问答和推理方面展现出卓越

2025-11-27 00:15:00 1024

原创 小语言模型:综述

24年10月来自U Oregon,西北大学,CMU,UCSD,U Maryland,SUNY Buffalo,Arizona 州立,Adobe,UMass,Intel,Meta AI,Dartmouth 学院,U Arizona 的论文“A Survey of Small Language Models“。小型语言模型(SLM)因其高效且性能卓越,能够以极少的计算资源完成各种语言任务,而变得日益重要,使其成为包括设备端、移动设备、边缘设备等在内的多种应用场景的理想选择。本文对SLM进行全面的综述,重点关

2025-11-26 00:15:00 1580

原创 从ICLR‘26 投稿看VLA 研究现状

25年10月来自德国KIT 4年级博士生M Reuss的博客(https://mbreuss.github.io/blog_post_iclr_26_vla.html)论文“State of VLA Research at ICLR 2026”。本文提炼出 ICLR 2026 中视觉-语言-动作 (VLA) 模型研究的最新进展:VLA 的定义(以及该定义的重要性)、VLA 领域的研究方向(离散扩散、具身推理、新型token化器)、如何解读 VLA 研究的基准测试结果,以及模拟排行榜所掩盖的、不容忽视的前

2025-11-26 00:15:00 2085

原创 4DGS-Craft:一致的、交互的 4D 高斯溅射编辑

25年10月来自香港大学和纽卡斯尔大学的论文“4DGS-Craft: Consistent and Interactive 4D Gaussian Splatting Editing”。近年来,4D高斯溅射(4DGS)编辑技术取得显著进展,但仍面临视图、时间和非编辑区域一致性以及处理复杂文本指令等方面的挑战。为了解决这些问题,本文提出4DGS-Craft,一个一致的、交互的4DGS编辑框架。首先,引入一个4D-觉察的InstructPix2Pix(IP2P)模型,以确保视图和时间的一致性。该模型融合从初

2025-11-25 00:15:00 1547

原创 高效机器人操作的设备端扩散Transformer策略

25年10月来自香港大学、西湖大学、纽卡斯尔大学和优必选科技公司的论文“On-Device Diffusion Transformer Policy for Efficient Robot Manipulation”。扩散策略通过模仿学习显著提升机器人操作任务的性能,但由于计算效率低下和内存占用过大,其在资源受限的移动平台上的应用仍然面临挑战。本文提出一种名为 LightDP 的框架,旨在加速扩散策略在移动设备上的实时部署。LightDP 通过两项核心策略解决计算瓶颈问题:一是压缩去噪模块的网络,二是减

2025-11-25 00:15:00 719

原创 Unreal 机器人实验室:一款具有高级物理和渲染功能的高保真机器人模拟器

25年4月来自英国 UCL 的论文“Unreal Robotics Lab: A High-Fidelity Robotics Simulator with Advanced Physics and Rendering”。高保真仿真对于机器人研究至关重要,它能够安全高效地测试感知、控制和导航算法。然而,同时实现逼真的渲染和精确的物理建模仍然是一个挑战。本文提出一种仿真框架——Unreal 机器人实验室(URL),它将Unreal engine的先进渲染功能与MuJoCo的高精度物理仿真相结合。该方法能够

2025-11-24 00:15:00 964

原创 EmbodiedGen:面向具身智能的生成式3D世界引擎

25年6月来自地平线机器人、极佳科技、地瓜机器人、上海交大和南开大学的论文“EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence”。构建一个物理真实且比例精确的模拟三维世界对于具身智能任务的训练和评估至关重要。三维数据资产的多样性、真实性、低成本易用性和经济性对于实现具身人工智能的泛化和可扩展性至关重要。然而,目前大多数具身智能任务仍然严重依赖于手动创建和标注的传统三维计算机图形资产,这些资产存在制作成本高

2025-11-24 00:15:00 1314

原创 Gen2Sim:利用生成模型在仿真环境中扩展机器人学习

23年10月来自CMU的论文“Gen2Sim: Scaling up Robot Learning in Simulation with Generative Models”。通用型机器人机械臂需要在各种不同的环境中学习多种多样的操作技能。目前的机器人训练流程依赖于人类提供动觉演示或编写仿真环境程序,以及编写强化学习的奖励函数。这种人为干预是机器人学习扩展到各种任务和环境的重要瓶颈。一种名为“生成-到-仿真”(Generation to Simulation,简称Gen2Sim)的方法,通过使用预训练大

2025-11-23 00:15:00 1279

原创 DexMimicGen:基于模仿学习双手灵巧操作的自动化数据生成

25年3月来自Nvidia、UT Austin和 UCSD 的论文“DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning”。通过模仿人类演示来学习是教授机器人操作技能的有效方法。然而,由于成本高昂且需要耗费大量人力,数据采集成为该范式广泛应用的主要瓶颈。人们对双臂灵巧机器人(例如人形机器人)的模仿学习表现出浓厚的兴趣。遗憾的是,由于同时控制双臂和多指手的难度,此类

2025-11-23 00:15:00 1697

原创 基于高斯溅射的真实世界零样本机器人操作学习的高保真模拟数据生成

25年10月来自武汉大学、阿里达摩研究院、湖畔实验室、香港中文大学、清华大学、华中科技和浙大的论文“High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting”。机器人学习的可扩展性从根本上受到真实世界数据采集成本高昂和耗费人力的制约。虽然模拟数据提供一种可扩展的替代方案,但由于视觉外观、物理属性和物体交互方面存在显著差异,它往

2025-11-22 00:15:00 1881

原创 理解世界还是预测未来?世界模型的综述

25年10月来自清华大学的论文“Understanding World or Predicting Future? A Comprehensive Survey of World Models”。由于GPT-4等多模态大语言模型和Sora等视频生成模型的进步,世界模型的概念受到了广泛关注,这些模型对于实现通用人工智能至关重要。本文对世界模型的相关文献进行全面的综述。通常,世界模型被视为理解世界现状或预测其未来动态的工具。本文对世界模型进行系统的分类,重点强调其两个主要功能:(1)构建内部表征以理解世界的

2025-11-22 00:15:00 1137

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除