AI大模型 - 具身智能前沿
文章平均质量分 97
本专栏聚焦AI大模型与具身智能的前沿技术与应用实践,深度解析多所顶尖高校及科研机构的创新成果。涵盖人形机器人、多模态系统、视觉-语言-动作模型等多领域探索,为从业者和爱好者提供从理论突破到开源应用的一站式学习资源。
寻道AI小兵
10年+互联网架构师,聚焦AI大模型开发实战,分享前沿技术,解锁AI新技能,共探智能未来!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【2026具身智能大模型·系列20】Kairos 3.0:大晓机器人的开源世界模型,开启具身智能新纪元
Kairos 3.0 是大晓机器人开发的开源世界基础模型,专注于学习真实世界的动态变化、因果关系和物理规律,并通过长时序视频生成技术实现对世界的理解和预测。其核心创新在于采用线性时间复杂度的 DiT 架构,结合滑动窗口、扩张滑动窗口和门控线性注意力机制,能够高效处理长视频序列,生成复杂且符合物理规律的动态交互场景。原创 2026-02-12 08:00:00 · 2502 阅读 · 0 评论 -
【2025具身智能大模型·系列19】小米MiMo-Embodied:开创性的跨领域具身大模型
MiMo-Embodied是由小米具身智能团队开发的开创性跨领域具身基础模型,是首个成功整合自动驾驶和具身智能两大领域的开源视觉语言模型(VLM)。该模型在环境感知、任务规划、空间理解等多方面展现出卓越性能,覆盖了17个具身智能基准测试和12个自动驾驶基准测试,显著超越了现有的开源、闭源以及领域专用模型。原创 2026-01-15 08:00:00 · 1037 阅读 · 0 评论 -
【2025具身智能大模型·系列18】RoboBrain-X0:智源研究院开源的跨本体泛化具身模型,开启机器人新时代
RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,实现了从感知到执行的一体化能力。原创 2025-11-30 08:00:00 · 1917 阅读 · 1 评论 -
【2025具身智能大模型·系列17】阿里达摩院开源RynnVLA-001:视觉-语言-动作模型助力机器人智能操控
RynnVLA-001是阿里达摩院推出的一款视觉-语言-动作模型,旨在通过预训练大量第一人称视角的视频数据,学习人类操作技能,并将其隐式迁移到机器人手臂的操控中。该模型结合了视频生成技术和变分自编码器(VAE),能够生成连贯、平滑的动作序列,显著提升机器人在复杂任务中的成功率和指令遵循能力。它在工业自动化、服务机器人、物流与仓储、医疗保健等多个领域具有广泛的应用前景。原创 2025-09-28 08:00:00 · 1113 阅读 · 1 评论 -
【2025具身智能大模型·系列16】RoboBrain 2.0:智谱开源的具身智能大脑模型,开启智能体新纪元
RoboBrain 2.0 是智谱开源的最新一代具身大脑模型,旨在为复杂物理环境中的具身任务提供统一的感知、推理和规划能力。它包含 7B(轻量级)和 32B(全规模)两个版本,基于异构架构,融合视觉编码器和语言模型,支持高分辨率图像、长视频、多视图输入以及复杂任务指令和场景图。该模型在空间理解、时间建模和长链推理方面表现出色,适用于机器人操作、导航、多智能体协作等任务,助力具身智能从实验室走向真实场景。原创 2025-09-07 09:12:53 · 2062 阅读 · 3 评论 -
Embodied-Reasoner:AI界的多面手,视觉搜索、推理、行动协同出击
**Embodied-Reasoner** 是由浙江大学、中科院软件所和阿里巴巴达摩院等机构联合提出的一个开源的多模态具身模型。它能够将深度推理能力扩展到具身交互任务中,处理复杂的具身任务,例如在 AI 2-THOR 模拟器中搜索隐藏物体、操纵和运输物品等。该模型通过整合视觉搜索、深度推理与动态规划能力,显著提升了具身任务的执行效率与成功率,甚至超越了 OpenAI 的 o1 和 GPT-4o 等先进模型。Embodied-Reasoner 不仅能够自主观察环境、探索房间并找到隐藏物体,还能通过深度推理解决原创 2025-06-05 08:00:00 · 1983 阅读 · 31 评论 -
【2025具身智能大模型·系列14】VPP:清华与星动纪元联合打造的机器人界的超能陆战队,家庭、工业、医疗样样精通
`VPP(Video Prediction Policy)是清华大学和星动纪元联合推出的首个AIGC机器人大模型,旨在通过预训练的视频扩散模型学习互联网上的大量视频数据,直接预测未来场景并生成机器人动作。`VPP的核心优势在于其能够提前预知未来场景,支持高频预测与动作执行,并且可以跨人形机器人本体切换,显著降低了对高质量机器人真机数据的依赖。原创 2025-05-30 15:00:00 · 1553 阅读 · 2 评论 -
【2025具身智能大模型·系列13】Infinite Mobility:上海 AI Lab 推出的可交互物体生成模型,高效助力机器人仿真训练
Infinite Mobility 是上海 AI Lab 推出的可交互物体生成模型,基于程序化生成技术,能够高效生成高质量的可交互物体数据资产 。该模型支持 22 类常见可交互物体的生成,单个物体生成仅需约 1 秒,生成数量无上限。原创 2025-05-30 08:00:00 · 2155 阅读 · 50 评论 -
【2025具身智能大模型·系列12】Aether:上海 AI Lab 开源的生成式世界模型,探索三维时空建模与智能决策新境界
Aether 是上海 AI Lab 开源的一个生成式世界模型,完全基于合成数据训练。它首次将三维时空建模与生成式建模深度融合,具备 4D 动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。原创 2025-05-29 15:58:45 · 2210 阅读 · 2 评论 -
【2025具身智能大模型·系列11】SpatialLM:群核科技开源空间理解多模态,赋予机器超强空间认知,登顶HuggingFace
在人工智能快速发展的当下,空间理解能力成为推动具身智能、虚拟现实等领域进步的关键因素。群核科技开源的SpatialLM空间理解多模态模型,为相关研究与应用带来了新的突破。今天,就让我们深入探究SpatialLM的奥秘。SpatialLM是群核科技开源的一款极具创新性的空间理解多模态模型,其目标是赋予机器人和智能系统类似人类的空间认知能力。它能对普通手机拍摄的视频进行深度分析,重建出细致入微的3D场景布局,精确标注房间结构、家具摆放、通道宽度等关键信息。原创 2025-04-27 15:00:00 · 2485 阅读 · 27 评论 -
【2025具身智能大模型·系列10】RDT-1B:清华发布双臂机器人模型,零样本泛化能力震撼业界
在机器人领域,双手机器人操控对于执行复杂任务至关重要,如家庭服务、工业生产等场景。然而,开发具备强大泛化能力的双手机器人操控基础模型面临诸多挑战,其中数据稀缺和架构设计难题尤为突出。由清华大学等机构研发的RDT-1B(Robotics Diffusion Transformer)模型应运而生,它创新性地采用扩散模型和可扩展的Transformer架构,致力于解决这些问题,为双手机器人操控带来了新的解决方案,在机器人领域引起广泛关注。原创 2025-04-07 08:00:00 · 3410 阅读 · 6 评论 -
【2025具身智能大模型·系列9】RoboMamba:北京大学推出的高效机器人多模态大模型,助力机器人推理与操作
在机器人技术飞速发展的今天,如何让机器人更好地理解视觉场景并执行相应的动作,是机器人操控领域的一个关键挑战。现有的视觉-语言-动作(VLA)模型虽然在一些基础任务上取得了进展,但在处理复杂任务时仍面临推理能力有限和计算成本高昂的问题。为了解决这些问题,北京大学的研究团队推出了 RoboMamba,这是一个高效的机器人多模态大模型,通过将视觉编码器与线性复杂度的状态空间模型(SSM)Mamba 相结合,实现了强大的机器人推理和操作能力。原创 2025-04-05 09:00:00 · 2337 阅读 · 7 评论 -
【2025具身智能大模型·系列8】LightPlanner:中科视语开源的轻量化具身推理大模型,赋能机器人高效决策
在人工智能和机器人技术迅速发展的当下,机器人在复杂环境中的任务规划与决策能力显得尤为重要。然而,现有的许多机器人系统在处理复杂任务时往往面临推理效率低下、决策不准确等问题。为了解决这一挑战,中科视语推出了 LightPlanner,这是一个开源的轻量化具身推理大模型,旨在提升机器人在复杂任务中的推理和决策能力。本文将深入探讨 LightPlanner 的项目背景、技术原理、功能特点、应用场景以及如何快速上手使用,帮助读者全面了解这一前沿技术。原创 2025-04-04 20:00:00 · 1857 阅读 · 6 评论 -
【2025具身智能大模型·系列7】HugWBC:上海交通大学与上海AI Lab打造的通用人形机器人控制器
在人工智能和机器人技术飞速发展的今天,人形机器人的运动控制一直是该领域的研究热点之一。如何让人形机器人像人类一样灵活地进行各种复杂动作,是实现其广泛应用的关键。近期,上海交通大学和上海人工智能实验室联合推出了一款名为 HugWBC(Humanoid Unified and General Whole-Body Controller)的通用人形机器人控制器,它通过扩展的命令空间和先进的训练技术,实现了对人形机器人步态、姿态和动作的细粒度控制,并支持实时外部介入操作。原创 2025-04-04 09:05:33 · 2231 阅读 · 1 评论 -
【2025具身智能大模型·系列6】OpenVLA:斯坦福开源的视觉语言动作大模型,引领机器人技术新突破
在人工智能领域,视觉语言动作(Vision-Language-Action,VLA)模型正逐渐成为连接人类语言与机器人动作的关键技术。随着机器人技术的不断发展,如何让机器人更好地理解人类语言指令,并将其转化为精确的动作,成为了研究的热点。近期,斯坦福大学等机构的研究团队开源了 OpenVLA 模型,这一模型以其高效的参数利用和卓越的性能,为机器人技术的发展带来了新的希望。本文将详细介绍 OpenVLA 的项目背景、技术原理、功能特点、应用场景以及如何快速上手使用,帮助读者全面了解这一前沿技术。原创 2025-04-03 16:00:00 · 2423 阅读 · 5 评论 -
【2025具身智能大模型·系列5】OmniH2O:卡内基梅隆与上海交大联手打造的全能人形机器人系统
在人工智能和机器人技术飞速发展的今天,人形机器人正逐渐从科幻走向现实。它们有望在各种复杂环境中为人类提供帮助和服务,但如何实现高效、灵活且自然的人机交互与控制,一直是该领域的关键挑战之一。近期,卡内基梅隆大学(CMU)和上海交通大学联合研发的 OmniH2O 项目,为这一问题带来了新的突破和思路。本文将深入探讨 OmniH2O 的技术原理、核心功能、应用场景以及如何快速上手使用,带您领略这一前沿技术的魅力。原创 2025-04-03 08:00:00 · 3888 阅读 · 37 评论 -
【2025具身智能大模型·系列4】GR00T N1 :英伟达推出全球首个开源通用人形机器人基础模型
随着人工智能和机器人技术的飞速发展,人形机器人的开发逐渐成为研究和应用的热点。人形机器人不仅在工业自动化、服务机器人等领域具有巨大潜力,还在学术研究中为探索智能体的感知、决策和行动提供了重要平台。英伟达(NVIDIA)在2025年3月18日的GTC大会上发布了全球首个开源通用人形机器人基础模型——GR00T N1。这一模型的发布标志着人形机器人开发进入了一个新的阶段,为全球开发者提供了一个强大的工具,加速了通用机器人技术的发展。原创 2025-04-02 16:00:00 · 3471 阅读 · 48 评论 -
【2025具身智能大模型·系列3】斯坦福HumanPlus:人形机器人实时控制与模仿学习的完美结合
随着人工智能和机器人技术的飞速发展,人形机器人(Humanoid Robot)的研究逐渐成为热点。人形机器人不仅在工业自动化、服务机器人等实际应用中具有巨大潜力,也在学术研究中为探索智能体的感知、决策和行动提供了重要平台。斯坦福大学ALOHA团队开发的HumanPlus框架,通过从人类数据中学习复杂的自主技能,实现了人形机器人的高效控制和模仿学习,为这一领域带来了新的突破。本文将深入探讨HumanPlus的技术架构、主要功能、应用场景以及其在具身智能研究中的重要地位。原创 2025-04-01 16:00:00 · 3347 阅读 · 8 评论 -
【2025具身智能大模型·系列2】UniAct:清华大学等机构推出的开源具身智能框架,用通用动作空间解决机器人异构难题
随着人工智能技术的快速发展,具身智能(Embodied AI)逐渐成为研究热点。具身智能的目标是让机器人能够像人类一样感知和操作物理世界,但不同机器人之间的动作空间异构性一直是这一领域的重大挑战。为了解决这一问题,清华大学、商汤、北京大学和上海人工智能实验室等机构联合推出了UniAct框架。UniAct通过学习通用行为,能够消除不同机器人之间的动作异构性,为具身智能的发展提供了新的思路和工具。本文将详细介绍UniAct的技术架构、主要功能、应用场景以及如何快速上手使用。原创 2025-03-31 16:00:00 · 2081 阅读 · 19 评论 -
【2025具身智能大模型·系列1】SpatialVLA:上海 AI Lab 联合上科大等推出的空间具身通用操作模型,赋能机器人3D空间理解
随着机器人技术的不断发展,赋予机器人通用的3D空间理解能力成为实现其在复杂环境中高效操作的关键。上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构联合推出的 SpatialVLA 模型,为这一目标带来了新的突破。SpatialVLA 是一款基于大规模真实机器人数据预训练的视觉-语言-动作(VLA)模型,通过引入 Ego3D 位置编码和自适应动作网格等创新技术,显著提升了机器人的空间理解能力和操作泛化性能。原创 2025-03-30 15:00:00 · 2432 阅读 · 6 评论
分享