- 博客(37)
- 收藏
- 关注
原创 2025 AI 展望:Scaling Law新叙事加速 AI 变革
关于数据,一方面是现有的互联网相关数据,另一方面是合成数据——合成数据非常重要,但是合成数据的质量能否用于有效训练,取决于基础模型的生成能力和合成数据的方法,截止到 2024 年,可能只有 GPT-4 等极少数模型能达到这个水平。所以在不远的将来,利用多模态大模型的能力,虚拟老师的水平将会超过几乎所有的真实老师的水平,从而使教育提高到一个全新的高度。而二者的结合:一个低自由度,结构简单稳定,能够带来“轻、静、快”的物理交互,又能结合AI提供多模态感知交互的机器人,很可能会更早地形成可以持续的商业生态。
2025-05-12 10:23:56
708
原创 ICLR’25|使用图计算评估 LLM 的新方法
LLM 测评是行业热点研究方向,传统研究一般采用图片、表格、时空数据来进行测评。Graph 图数据也是测评 LLM 的一类优秀数据,解决图任务需要 LLM 解读关系信息或结构化知识,处理非序列或非欧几里得数据,一些困难的图任务还需要 LLM 进行多步骤推理。然而现有的基于图的 LLM 测评存在一些问题:测评数据为人工合成的数据,缺乏现实场景数据;测评图任务较简单(如判断两个节点是否可达,图遍历等);测评只看推理结果,忽视结果正确但中间步骤出错的情况等。
2025-05-12 10:21:59
703
原创 ICLR’25 Spotlight|训练后期的制胜法宝:锐度感知最小化如何高效锁定更优极小值?
具体而言,将 SAM 在后期的优化分成了两个阶段(Phase):在第一个阶段,SAM会从相对 sharp 的解中逃离(例如,前期使用 SGD 所找到的相对 sharp 的解),但仍然停留在当前的山谷(valley)中;通过实验发现,即使仅在训练的最后几个周期使用SAM,其仍可找到比 SGD 更平坦的解,且与全程使用SAM效果相当,凸显了训练后期动力学对模型泛化能力的重要性。一个 Picture 解释了 SAM 在后期选择更加 flat 的 minima 的原因,为我们解释 SAM 的有效性提供了新的视角。
2025-05-12 10:19:11
789
原创 ICLR‘25 杰出论文解读来啦!模型编辑的必要性、短板与破局法
(笔者展望,在LLM时代,零空间投影大有可为,例如:在保护LLM某种能力不受影响的同时,增强/削弱LLM在目标任务上的表现。而模型编辑,则能以 Training Free 的姿态,顶着 “scaling law” 的高压,赋予大语言模型“实时性”这一优雅而又强大的属性。目前看来,几乎毫无可能。解决了这一模型破坏的短板,AlphaEdit可以让模型编辑这一伏魔圈,完全有能力撑到下一次版本更新的到来。原因也很简单,如上所述,模型编辑这个伏魔圈,它的使命,就是撑到下一次微调,或者说版本更迭的到来即可。
2025-05-12 10:10:15
107
原创 ICLR‘25 | 兼顾分子优化效率与效果,InversionGNN新方法解析!
解决方法一般使用一个预训练的分子属性预测器来做筛选,用一些分数指标筛掉较差的分子结构,但这种方法无法充分结合已有的化学知识,因为某些分子结构表现出的属性优势是很难用分数衡量的;具体来说,该方法对分子的每个属性做一个损失函数,再对其求导得到导数,再对每一个属性的梯度进行平衡,得到统一的梯度再传回分子进行训练。针对上述问题,香港科技大学团队提出了一种新方法,名为 InversionGNN,该方法将优化算法直接用于分子结构,同时解决了分子多属性联合优化的帕累托改进方法挑战,获得了不错的优化效果。
2025-05-12 10:07:14
740
原创 达摩院 ICLR‘25 Spotlight | 细粒度视觉模型如何提升医疗影像诊断能力?
此外,即使在某些情况下医师报告了具体的病变位置,在其他病人的特定细粒度解剖部位(比如肺部右中叶)发生异常病变的可能性也相当低,导致这些具体的解剖结构的正常样本和异常样本的数量存在压倒性的不平衡。但这种全局对比方法本质上是粗粒度的,忽略了图像上的局部解剖区域和报告中对应的文本段落之间的关系。匹配具体的 CT 图像位置与诊断报告文本之间的关系时,面临的一个主要挑战是报告对身体器官描述的模糊性。具体来说,研究团队对图像和报告进行了解剖级的分解和匹配,对成对的图像嵌入和相应解剖结构的文本报告嵌入进行精细对齐。
2025-05-12 10:00:23
784
原创 达摩院 ICLR‘25 | Dynamic Diffusion Transformer
在空间级别,同样需要引入一个 Rooter(Rtoken)来预测每帧图片输入 token 中需要计算的部分,得到一个token mask,mask的值为0代表该 token 不需要计算,而 mask 的值为 1 代表该 token 需要计算。过去一年来,由 Sora 模型开始推动的 Diffusion Transformer(DiT)架构在视觉生成领域展现出了强大的能力,得到了包括 Stable Diffusion 3、Flux、Sora、WanX、Movie Gen 等众多视觉模型的应用。
2025-05-12 09:58:14
481
原创 ICLR‘25 | 预测精准度再提升!使用 Transformer 新方法预测全球次季节到季节性天气
存在的主要问题是,这些方法会将地球表面映射成一个矩形图像,使用 Visual Transformer 的方法进行预测,但这种映射会存在很多失真现象。对此,香港科技大学团队提出了一个改进方法,将矩形映射改为按纬度切分的圆形映射,从而提高预测精度。但这里的问题在于地球是一个球体,而上述图像其实是平面图像,平面到球体之间的映射是存在信息损失的,这种损失就会影响预测的精度。方法的主要创新在于,绘制全球地理图像时不再使用球体到矩形的映射,而是按照纬度将球体分割成众多圆形,之后将这些圆形数据输入。
2025-05-12 09:55:10
604
原创 达摩院 ICLR‘25 | 权重相似性度量新方法!揭秘 DOCS 在大模型中的探索与发现
首先,从各个模型的热力图中可以明显看到,有一些连续的层形成了高相似度的簇,这些簇表现为图中的浅色区域。我们对不同大型语言模型(LLMs)的相邻 Transformer 层进行了权重矩阵的相似性分析,包括 \(W_v\)、\(W_k\)、\(W_q\)、\(W_o\)、\textsc{MLP-Up} 和 \textsc{MLP-Down} 等多个矩阵。第三种,也是我们最期望的特性,叫做“可区分性”:即指标能够有效地区分不同的正交矩阵,输出不同的数值,从而体现权重矩阵之间的本质差异。
2025-05-09 17:39:46
525
原创 达摩院 ICLR‘25 | 小样本增量学习解决新旧类别混淆和模型泛化
这就会导致一个问题,在已有物种上训练好的模型,在面对这些新物种的时候,往往会将其与相似的旧物种混淆,而新物种样本量通常比较少,这进一步加剧了模型学习的困难。此论文提出了一种“Prototype Antithesis”的小样本增量学习方法,通过分层式的表征学习,驱使模型同时学习“物种独有”与“家族共享”的特征,并将其与新类别学习有机结合,提升模型泛化能力的同时减少模型遗忘,对生物分析及小样本增量学习领域都具有不错的启发效果。PA方法通过分层级的特征学习,使模型能够同时捕捉物种独有的特征和家族共享的特征。
2025-05-09 17:37:38
451
原创 达摩院 ICLR‘25 Spotlight | 从无标注具身场景的展示,学习闭环概念引导的策略
在未来我们会结合不同模态的输入信息,将视觉信号和机械臂的运动轨迹进行结合,为操作概念的发现进行更有效的提取,从而进一步提升具身场景的泛化能力。它通过自监督学习框架,让机器人从本体感受状态中自主发现操作概念,并构建动态调整的闭环策略,从而在复杂任务中实现更稳定、高效的表现。上图展示了Automatic Concept-Guided Policy 从无标签演示中学习闭环概念引导策略的完整流程,整体分为两大模块:自动概念发现和概念引导策略学习,通过数据标注与策略训练形成闭环。人工通过语义标签指导任务分解(如。
2025-05-09 17:35:54
547
原创 达摩院 ICLR‘25 | 多模态光谱信息赋能 3D 分子表征预训练
输出的光谱表征整体分布均匀,并且存在局部聚类现象,这与表征学习中的均匀性(uniformity)和对齐性(alignment)特性相符,体现了光谱表征与 3D 结构表征对齐的潜力。此外,不同类型的光谱可以反映不同类型的能级信息,例如,红外光谱反映了振动能级结构,而紫外-可见光谱反映了电子能级结构。具体而言,这一策略通过向分子中的原子坐标随机添加噪声,然后将带有噪声的分子结构输入模型,基于模型输出的表征来预测噪声,从而实现对分子表征的学习。因此,我们提出将分子能级结构知识融入分子表征学习的过程。
2025-05-09 17:33:27
584
原创 达摩院 ICLR‘25 | 大模型的长上下文自进化训练
目前,主流模型一般倾向于只使用非常少量的长文本数据来对齐模型(例如,LLaMA 3.1 的长文本后训练数据只有 1% 的比例)以适应实践中短文本占主流的场景,导致模型能力无法被很好地迁移到长文本场景中。上述长文本训练方法存在的问题是,所需的长文本后训练数据集通常需要人来标注,而人天然不擅长阅读长文本并给出足够的标注信息。长文本训练过程一般不采用 DPO 方法,因为 DPO 需要一个参考模型来约束模型输出,而参考模型本身往往并没有针对长文本优化,所以用于长文本场景时是不可靠的,可能会让模型走向错误的方向。
2025-05-09 17:31:21
571
原创 达摩院 ICLR‘25 | MovieDreamer:层次化生成连贯的长视觉序列
特别地,我们引入多模态剧本概念,每个关键帧都包含图像风格、场景元素的丰富描述,以及角色文本描述和检索的人脸嵌入。本文另辟蹊径,结合自回归模型和扩散模型各自的优势实现了一种针对长视频生成的框架。我们突破了短视频生成的限制,实现具有丰富、引人入胜故事线的视。成技术能够在"寻光"系列产品中为用户提供了专业级的长视频内容生成能力,远超当前主流短视频生成方案的时长限制。在实现上,为了保证预测的角色身份保持,我们增强了扩散自动编码器的解码器。具体而言:与现有故事生成方法相比,我们的方法在更长内容的生成中保持。
2025-05-09 17:27:23
464
原创 达摩院 ICLR‘25 Spotlight | MaRS:自带条件输入的扩散模型如何快速采样?
我们提出了一种适用于 Mean Reverting Diffusion 的快速采样算法,无需额外训练且支持多种参数化训练目标。我们通过求解相应的逆时 SDE 和 PF-ODE,得到具有半解析结构的解,并利用“指数积分”法估计非解析项的积分。我们还提供了可视化的采样轨迹,并尝试分析了数值稳定性的来源以及数据参数化更稳定的原因。
2025-05-09 17:24:54
992
原创 ICLR‘25 Spotlight | AI也能写菜谱?ISG:全新图文交错生成评测框架来了!
ISG通过建模文本与图像块的连接,提供整体、结构、块级和图像级四个层级的评估,深入评测生成质量。这种能力为更丰富的教程、引人入胜的故事和更直观的解释打开了大门,超越了简单的文本或图像输出。8 大类、21个子类的1150个样本,囊括了风格迁移等复杂的、以视觉为中心的任务,这些任务对视觉准确性要求极高。至关重要的是,ISG-BENCH包含了详细的标准答案(Golden Answer),支持精确可靠的评估。评估图像内的语义细节。ISG评估结果与人类判断的高度一致性,优于简单的评估指标,提供了可信赖的评估。
2025-05-09 17:19:27
645
原创 ICLR‘25 Spotlight | 少样本场景下的分子性质预测任务新解
UniMatch 首先将支持样本和查询样本输入到 GNN 中,GNN 的每一层都有 Pooling 和 Matching 的操作,前者用于聚集每个分子层级的结构信息,后者用于对比两个数据集的信息,了解不同层级之间的差异性和相似性。而图方法一般更关注宏观整体层级的性质预测,序列方法更关注微观局部层级的性质预测,它们都不能较好地同时预测分子所有层级。对于模型而言,各个分子结构层级是数据层,各个结构表现出来的性质可以看作任务(属性)层,所以分子性质预测问题本质上应该有四个层级(三个结构层和一个任务层)。
2025-05-09 17:13:19
510
原创 ICLR‘25 Spotlight | 高效又稳定!人大团队提出模型剪枝新方法 LLM-Streamline
如下图所示,LLM-Streamline 的性能对比已有模型剪枝方法有着明显优势:如图所示,LLM-Streamline 包括了层剪枝与层替换两个步骤:层剪枝阶段会通过输入与输出的余弦相似度来判断各个层的重要性,层替换阶段则训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失。此外,团队发现使用准确度来衡量剪枝模型性能的方法有一定局限性,因此,又提出了一个新的指标——稳定性,来衡量剪枝模型的性能。
2025-05-09 17:09:38
661
原创 LangEngine硬核开源!24小时极限复刻OpenManus
Langengine-Openmanus初步具备了通过大模型规划和执行步骤的能力,能够针对浏览器进行 UI 操作,并可本地执行 Python 命令。本文分享的目的是希望大家能够通过这一框架快速学习和理解其原理。开源生态为Agent技术的快速发展提供了核心动力。从算法模型到工程框架,全球开发者的开放共享使前沿创新得以快速落地验证。但技术原型与成熟产品之间存在真实壁垒:代码复现可以“快”,而构建稳定、可用的服务需要技术沉淀——包括工程优化、模型演进、场景适配及稳定性保障。
2025-05-09 17:05:36
934
原创 ICLR‘25 Oral|大型语言模型微调的学习动态
学习动态(Learning dynamics)描述了特定训练样本的学习过程如何影响模型对其他样本的预测,为我们理解深度学习系统的行为提供了有力工具。我们通过分析不同潜在响应之间影响积累的逐步分解,研究了大型语言模型在不同微调类型中的学习动态。我们的框架能够统一解释关于指令微调和偏好微调中流行算法训练的许多有趣现象。我们提出了一个假设性的解释,说明为什么某些类型的幻觉(hallucination)在微调后会增强。例如,模型可能会使用回答问题B的短语或事实来回答问题A,或者在生成响应时不断重复类似的简单短语。
2025-05-09 16:59:19
541
原创 ICLR‘25 Spotlight | 20秒内完成十亿边图上的遗忘学习!人大 ALGO 组发布首个大规模理论完备图遗忘方法
随着图神经网络(GNNs)在推荐系统、社交网络、金融预测等领域的广泛应用,如何保护这些场景下的用户隐私成为一个日益重要的问题。由于用户敏感数据可能用于图神经网络模型训练,所以隐私保护的要求不仅仅在于把数据库的用户数据删除,更要从模型中删除用户数据,使得模型与从未基于这些被删除数据训练出来的模型尽可能相近。基于这样的需求,图遗忘学习应运而生。所谓“图遗忘学习”,其核心目标是设计一个数据遗忘方法,能够从模型中高效地遗忘指定数据,并尽可能保障遗忘效果。有理论保证的遗忘学习算法。
2025-05-09 16:48:54
529
原创 ICLR‘25 Oral|单卡 3090 玩转 MineCraft:LS-Imagine 在开放世界中基于长短期想象进行强化学习
我们的工作提出了一种新颖的方法——LS-Imagine,旨在克服在高维开放世界中训练视觉强化学习智能体所面临的挑战。通过扩展想象范围并利用长短期世界模型,LS-Imagine 能够在庞大的状态空间中高效进行策略探索。此外,引入基于目标的跳跃式状态转换和功用性图,使得智能体能够更好地理解长期价值,从而提升其决策能力。实验结果表明,在 Minecraft 环境中,LS-Imagine 相比现有的方法取得了显著性能提升。
2025-05-09 16:41:41
707
原创 ICLR‘25 Spotlight | 用户能否通过提示来识别带有水印的大型语言模型?
文本水印技术在检测大型语言模型(LLM)输出以及防止其滥用方面取得了显著进展。当前的水印技术具有高可检测性、对文本质量影响小以及对文本编辑具有鲁棒性等特点。然而,目前的研究缺乏对 LLM 服务中水印技术不可感知性的探讨。因为 LLM 提供商可能不希望在现实场景中透露水印的存在,这可能会降低用户使用服务的意愿,并使水印更容易受到攻击。本研究调查了水印 LLM 的不可感知性。我们设计了一种名为 Water-Probe 的统一识别方法,通过精心设计的提示来识别 LLM 中的各种水印。
2025-05-09 14:51:11
550
原创 ICLR‘25 Spotlight|ReDeEP: 针对 RAG 场景的幻觉检测与缓解
Retrieval-Augmented Generation (RAG) 模型通过结合外部知识以减少幻觉问题,但即使检索到准确的上下文,RAG 模型仍可能在生成过程中产生与检索信息相冲突的“幻觉”输出。
2025-05-09 14:46:33
586
原创 稀疏计算与软硬协同,大模型算力提升新思考 | 达摩链接
目前,团队已经与国内产业界紧密合作,帮助国产厂商实现了异构千卡混合训练优化,相比同构训练,集群算力利用效率高达93.1~97.6%,同时还在构建大规模的研究 + 工程算力底座,已经支撑了包括上海算法创新研究院、上交人工智能学院集群、上海 AI Lab 等算力底座的建设。针对这一挑战,团队提出了一种动态感知编译映射的新方法,即引入机器学习的方式,通过 AI 模型自适应地选择不同类型的计算流,适配不同类型的数据,从而大幅提升系统效率,部分场景甚至能接近理论最优水平。大模型主要的算子分别是注意力算子和线性算子。
2025-05-09 14:41:47
523
原创 ICLR 2025预讲会|DAMO开发者矩阵专场来啦,学术前沿抢先看!
值得注意的是,仅需增加不到3%的微调迭代次数,我们的方法将DiT-XL的FLOPs减少了51%,生成速度加快了1.73倍,并在ImageNet上实现了竞争性的FID分数2.07。我们提出了Short2Long Preference Optimization (LongPO),一种LLM长文本对齐的新方法,能使得LLM在没有外部监督的情况下,基于偏好优化(Preference Optimization )的思想利用自身良好的短文本能力去指导其在长文本能力上的不足,从而实现LLM由短到长的自我进化。
2025-05-09 14:39:13
258
原创 迈向高真实感数字人:3D高斯建模与智能交互技术解析|达摩链接
具体来说,用于训练的每一个样本视频都要提取人体信息,并利用同一时刻的多视点视频图像来学习空间信息,确保视角和空间的一致性;在这一领域,团队的第一个工作是动画化高斯建模,核心思想是对单帧人物图像参数化建模,将人物图像投影出正面和背面,用正面和背面的每一个像素定义一个 3D 高斯球,之后通过 3D 高斯球的优化来逼近拍摄的图像。该方法在人头的 3D 模型上优化模型顶点的 3D 高斯球,数字模型学习人头不同表情的表征,还加入了一些超分辨率优化,从而生成较为真实的头部表情,单个化身的训练时间是一到两天。
2025-05-09 14:35:08
878
原创 虚拟角色的 AI 未来:从肖像编辑到三维生成,技术如何重塑数字人生态|达摩链接
人体动画风格迁移在计算机图形和动画领域应用广泛,这里的风格迁移包括了两个步骤,第一步是从内容中分离动画角色的动作风格,第二步是将这种风格迁移到另一个动作上,从而创造出高质量、指定风格的动画内容。对此,团队开发了一种新的分离图像中头发边界的方法,以及男性秃头图像的构建方法,用来生成有发和秃头的训练配对数据。经过对比发现,该方法生成的睫毛蒙版是业内最接近真值的,优于RenderEyelashNet的结果(这说明合成睫毛数据和渐进式训练策略的重要性),并且比 SOTA 的方法有显著改善。
2025-05-09 14:31:33
566
原创 码率减半,画质翻倍!新一代视频标准 DAMO266 技术应用全解析
视频编解码技术经过了漫长的演进发展,自 20 世纪 90 年代开始,国际组织 ITU 、ISO/IEC开始组织制定视频编解码技术标准,先后发展出了 H.261、MPEG-1、H.262/MPEG-2、H.264/AVC、H.265/HEVC 和 H.266/VVC 等几代标准。尤其是在当下,主流视频播放设备尚不具备 H.266 视频硬解码能力,2024年刚刚开始有第一款支持 H.266 硬解的手机发售,但由于手机换代周期等因素,支持 H.266 硬解码的智能手机的大规模铺货需要到2026年左右。
2025-05-09 14:29:06
662
原创 ICLR 2025 | 揭秘 AI 智能体的从众性:大模型也会“人云亦云”?
例如,表3中展示了 Llama3-70B 在怀疑模式影响下,排除了其他智能体提供的正确答案,而在进行追问后,尽管它给出的推理过程是正确的,但却选择了另一个错误的答案。然而遗憾的是,该研究指出,当前 LLM驱动的多智能体系统中,从众现象普遍存在,其在需要独立思考和提出创新解决方案的情境中存在风险。研究结果表明,当前多智能体系统难以完全避免从众行为,即便是最先进的LLM也可能会放弃自己的正确判断,服从错误的多数意见。研究结果表明,在这类系统中,受试智能体很容易受到其他智能体的影响,表现出较强的从众倾向。
2025-05-09 14:27:52
587
原创 面向具身智能:开源 IP 视觉芯片新突破
该框架分为三个步骤,第一步同样是用代理拟合不可微的 ISP,但这里使用了一种更适合 ISP 的,基于 RRDB 的代理模型,可以避免之前使用的模型的降采样带来的性能损失;该模型将图像的合成和分解步骤引入到扩散中,即在推理步骤中,将中间迭代生成的图像分解为 MSCN 和 色调,用最原始的 MSCN 替换中间图像的 MSCN,从而确保图的纹理结构保持不变。通过这套系统的实践发现,自动驾驶场景中过亮的图像并不意味着更好的效果,而人类调参时更偏好于使画面更亮的参数组合,说明人类的偏好并不一定对机器是更合适的。
2025-05-09 14:13:38
479
原创 2025 AI 展望:Scaling Law新叙事加速 AI 变革
关于数据,一方面是现有的互联网相关数据,另一方面是合成数据——合成数据非常重要,但是合成数据的质量能否用于有效训练,取决于基础模型的生成能力和合成数据的方法,截止到 2024 年,可能只有 GPT-4 等极少数模型能达到这个水平。所以在不远的将来,利用多模态大模型的能力,虚拟老师的水平将会超过几乎所有的真实老师的水平,从而使教育提高到一个全新的高度。而二者的结合:一个低自由度,结构简单稳定,能够带来“轻、静、快”的物理交互,又能结合AI提供多模态感知交互的机器人,很可能会更早地形成可以持续的商业生态。
2025-05-09 14:12:15
545
原创 画质更高,码率更低:生成式模型如何改变视频编码技术|达摩链接
论文:Chen, B., Wang, Z., Li, B., Wang, S., Wang, S., & Ye, Y. (2023). Interactive face video coding: A generative compression framework. arXiv preprint arXiv:2302.09919.评价生成式模型的输出画质时,主要考察生成的画面与输入的提示内容是否匹配等要素,不需要将输出的画面与一段参考画面进行像素级对比,但在评价视频编码画质时需要这样做。
2025-05-09 14:10:27
421
原创 3D AIGC 驱动下,如何实现高真实感的三维建模和生成?|达摩链接
对此,解决方法是制作一个统一模型,假设物体的透明壁都有厚度,并通过神经网络学习并预测折射处的厚度,利用该厚度进行折射的计算。第三种方法需要物体放置在完美的平面上,条件较为苛刻。但基于 NeRF 的重建方法生成的几何表面都是闭合的,为了表达衣服、伞、花瓣、牛仔裤这类开放曲线,就可以利用前文提到的 UDF 重建方法,团队将这种生成方法命名为 DreamUDF。高斯球方法之所以很难直接变形,是因为高斯球的大小没有严格的限制,最终生成的高斯球往往大小不一,一旦对场景变形,这些不一致的球就会在图像上产生毛刺和瑕疵。
2025-05-09 14:08:31
591
原创 用动作捕捉技术构建具身智能数据工厂|达摩链接
对此,诺亦腾结合两者优势研发了全球第一个混合捕捉系统 HybridTrack,这是一套诞生于2018年的算法与软硬件系统,将惯性与光学系统的优质特性融合在一起,用光学定位补充惯性末端精度,用惯性传感器的数据源与光学计算进行紧耦合,极大提升了光学系统的抗遮挡能力,并将惯性传感器的ID赋予同型光学刚体,从而保证机器人遥操作数据采集,或者大规模人体动作、超高精度手部动作数据采集流程。人类所做的很多动作直接映射到机器人身上是无法完成的,例如,人类拿起杯子倒水的过程,机器人模仿时就可能倒洒甚至让杯子掉落。
2025-05-09 14:06:52
659
原创 使用自然语言连接具身智能体与 3D 世界|达摩链接
第一部分探讨了针对 3D-VL 的更大规模的数据集,更大规模的数据集对于具身智能很有意义。此外,具身智能还需要针对任务设计的数据集。第二部分探讨了为 3D-VL 设计的通用、简单的模型,这类模型的重点在于融合多种模态的内容表示形式,灵活选择合适的形式。LLM 的推理和规划能力在模型的预训练等过程中发挥了很大作用,可以帮助模型完成多种多样的任务类型。作者介绍李庆博士,北京通用人工智能研究院机器学习实验室负责人,研究员。
2025-05-09 10:36:35
923
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人