
机器学习
文章平均质量分 88
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
Cosmos-Reason1:从物理常识到具身推理(下)
25年3月来自 Nvidia 的论文“Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning”。物理 AI 系统需要感知、理解和执行物理世界中的复杂动作。Cosmos-Reason1 模型,可以理解物理世界并通过长链思维推理过程以自然语言生成适当的具身决策(例如,下一步动作)。首先定义物理 AI 推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,用分层本体(ontology)来捕获有关空间、时间和物理的基本知识。对于具原创 2025-03-25 00:15:00 · 568 阅读 · 0 评论 -
Cosmos-Reason1:从物理常识到具身推理(上)
25年3月来自 Nvidia 的论文“Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning”。物理 AI 系统需要感知、理解和执行物理世界中的复杂动作。Cosmos-Reason1 模型,可以理解物理世界并通过长链思维推理过程以自然语言生成适当的具身决策(例如,下一步动作)。首先定义物理 AI 推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,用分层本体(ontology)来捕获有关空间、时间和物理的基本知识。对于具原创 2025-03-25 00:15:00 · 632 阅读 · 0 评论 -
LLM 后训练:深入探究大语言模型的推理(下)
25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域,并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础,但研究界现在越来越多地将重点转向后训练技术,以实现进一步的突破。虽然预训练提供广泛的语言基础,但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性,并更有效地原创 2025-03-24 00:15:00 · 1009 阅读 · 0 评论 -
LLM 后训练:深入探究大语言模型的推理(上)
25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域,并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础,但研究界现在越来越多地将重点转向后训练技术,以实现进一步的突破。虽然预训练提供广泛的语言基础,但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性,并更有效地与原创 2025-03-24 00:15:00 · 862 阅读 · 0 评论 -
SAMEO:分割任何物体 (即使被遮挡)
25年3月来自台湾清华、Nvidia 公司、台大和 Aeolus 机器人公司的论文“Segment Anything, Even Occluded”。非模态实例分割,旨在检测和分割图像中物体的可见和不可见部分,在自动驾驶、机器人操控和场景理解等各种应用中发挥着至关重要的作用。虽然现有方法需要联合训练前端检测器和掩码解码器,但这种方法缺乏灵活性,无法利用现有模态检测器的优势。为了解决这一限制,SAMEO,采用 Segment Anything 模型 (SAM) 作为多功能掩码解码器,能够与各种前端检测器接口原创 2025-03-23 00:15:00 · 1114 阅读 · 0 评论 -
统一的视频动作模型
25年3月来自斯坦福大学的论文“Unified Video Action Model”。统一的视频和动作模型对机器人技术具有重大意义,其中视频为动作预测提供丰富的场景信息,而动作为视频预测提供动态信息。然而,有效地结合视频生成和动作预测仍然具有挑战性,当前基于视频生成的方法在动作准确性和推理速度方面难以与直接策略学习的性能相匹配。为了弥补这一差距,引入统一的视频动作模型(UVA),它联合优化视频和动作预测以实现高精度和高效的动作推理。关键在于学习联合视频动作潜表示和解耦视频动作解码。联合潜表示,连接视觉和原创 2025-03-23 00:15:00 · 1625 阅读 · 0 评论 -
自适应柔顺性策略:扩散引导控制中学习近似的柔顺
24年10月来自斯坦福大学和 TRI 的论文“Adaptive Compliance Policy: Learning Approximate Compliance for Diffusion Guided Control”。柔顺性在操作中起着至关重要的作用,因为它可以在不确定的情况下平衡位置和力的并发控制。然而,当今的视觉运动策略往往忽视柔顺性,而只注重位置控制。本文介绍自适应柔顺性策略 (ACP),这种框架,从人类演示中学习针对给定的操作任务在空间和时间上动态调整系统柔顺性,改进以前依赖预选择的柔顺原创 2025-03-22 00:15:00 · 661 阅读 · 0 评论 -
ManiWAV:通过野外的音频-视频数据学习机器人操作
24年6月来自斯坦福大学、哥伦比亚大学和 TRI 的论文“ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data”。音频信号通过接触为机器人交互和物体属性提供丰富的信息。这些信息可以简化接触丰富的机器人操作技能学习,尤其是当视觉信息本身含糊不清或不完整时。然而,机器人操作中音频数据的使用,仅限于通过将麦克风连接到机器人或物体上来收集的遥控演示,这大大限制其在机器人学习流水线中的使用。这项工作引入 ManiWAV,一种原创 2025-03-22 00:15:00 · 713 阅读 · 0 评论 -
大语言模型的长思维链推理:综述(下)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 1087 阅读 · 0 评论 -
大语言模型的长思维链推理:综述(上)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 1915 阅读 · 0 评论 -
Mobile-Agent-V:通过视频引导的多智体协作学习移动设备操作
25年2月来自北京交大和阿里巴巴公司的论文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。移动设备使用量的快速增长,迫切需要改进自动化以实现无缝任务管理。然而,因缺乏操作知识,许多人工智能驱动的框架举步维艰。手写知识虽然有帮助,但劳动强度大、效率低下。为了应对这些挑战,Mobile-Agent-V,利用视频指导为移动自动化提供丰富且经济高效操作知识。原创 2025-03-19 00:15:00 · 1013 阅读 · 0 评论 -
OctoTools:一个具有复杂推理可扩展工具的智体框架
25年2月来自斯坦福大学的论文“OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning”。解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型 (LLM),但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的 OctoTools,是一个无需训练、用户友好且易于扩展的开源智体框架,旨在解决跨不同域的复杂推理。OctoTools 引入标准化工具卡来封装工原创 2025-03-19 00:15:00 · 1209 阅读 · 0 评论 -
Satori:通过行动-思维-链进行强化学习,通过自回归搜索增强 LLM 推理能力
25年2月来自MIT、新加坡技术和设计大学、哈佛、MIT- IBM实验室和UMass的论文“Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search”。大语言模型 (LLM) 已在不同领域展现出卓越的推理能力。最近的研究表明,增加测试-时间计算可增强 LLM 的推理能力。这通常涉及在外部 LLM 验证者的指导下在推理时进行大量采样,从而形成双-玩家原创 2025-03-13 00:15:00 · 1987 阅读 · 0 评论 -
ForceMimic:以力为中心的模仿学习,采用力运动捕捉系统进行接触丰富的操作
25年3月来自上海交大卢策吾教授团队的论文“ForceMimic: Force-Centric Imitation Learning with Force-Motion Capture System for Contact-Rich Manipulation”。在大多数接触丰富的操作任务中,人类会将随时间变化的力施加到目标物体上,以补偿视觉引导手部轨迹的不准确性。然而,目前的机器人学习算法主要侧重于基于轨迹的策略,对学习与力相关的技能关注有限。为了解决这一限制,本文提出 ForceMimic,一种以力为原创 2025-03-11 00:15:00 · 1140 阅读 · 0 评论 -
使用异构预训练 Transformer 扩展本体感受-视觉的学习
24年9月来自 MIT 何凯明团队和 Meta 的论文“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”。当今训练通用机器人模型的障碍之一是异构性。以前的机器人学习方法通常收集数据,用一个特定的具身来训练一个任务,这种方法成本高昂,而且容易过拟合。这项工作研究通过对不同具身和任务的机器人数据进行大规模异构预训练来学习策略表示的问题。提出异构预训练 Transformer (HPT),原创 2025-03-10 10:02:23 · 1010 阅读 · 0 评论 -
CarPlanner:用于自动驾驶大规模强化学习的一致性自回归轨迹规划
25年2月来自浙大和菜鸟网络的论文“CarPlanner: Consistent Auto-regressive Trajectory Planning for Large-scale Reinforcement Learning in Autonomous Driving”。轨迹规划对于自动驾驶至关重要,可确保在复杂环境中安全高效地导航。虽然最近基于学习的方法,特别是强化学习 (RL),在特定场景中显示出良好的前景,但 RL 规划器在训练效率低下和管理大规模真实驾驶场景方面仍存在困难。本文介绍 Car原创 2025-03-08 08:54:00 · 1180 阅读 · 0 评论 -
用于自动驾驶的半监督视觉中心 3D 占用世界模型
25年2月来自清华大学的论文“Semi-supervised Vision-centric 3d Occupancy World Model For Autonomous Driving”。了解世界动态对于自动驾驶规划至关重要。最近的方法试图通过学习 3D 占用世界模型来实现这一点,该模型基于当前观察预测未来的周围场景。然而,3D 占用标签仍然需要产生有希望的结果。考虑到 3D 户外场景的注释成本很高,本文提出一个半监督的以视觉为中心 3D 占用世界模型 PreWorld,通过一种两阶段训练范式来利用原创 2025-03-08 04:00:00 · 1297 阅读 · 0 评论 -
RoboDexVLM:基于视觉-语言模型的任务规划和运动控制,实现灵巧机器人操作
25年3月来自香港科技大学广州分校的论文“RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation”。RoboDexVLM,一种专为配备灵巧手、协作机械手定制的机器人任务规划和抓取检测框架。以前的方法侧重于简化和有限的操作任务,这些任务往往忽略以长距离方式抓取各种目标的复杂性。相比之下,该提出的框架利用灵巧手,能够在执行基于自然语言命令的任务时抓取原创 2025-03-07 00:15:00 · 628 阅读 · 0 评论 -
RoboBrain:从抽象到具体的机器人操作统一大脑模型
25年2月来自北大、北京智源、中科院自动化所等的论文“RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete”。目前的多模态大语言模型(MLLM) 缺少三项必备的机器人大脑能力:规划能力,将复杂的操作指令分解为可管理的子任务;affordance感知,识别和解释交互目标affordance的能力;轨迹预测,预测成功执行所需的完整操作轨迹。为了增强机器人大脑从抽象到具体的核能力,引入 Share原创 2025-03-07 00:15:00 · 824 阅读 · 0 评论 -
世界模型在塑造自动驾驶中的作用:综述
25年2月来自华中理工和百度的论文“”The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey“。驾驶世界模型 (DWM) 专注于预测驾驶过程中的场景演变,已成为实现自动驾驶一个有前途的范例。这些方法使自动驾驶系统能够更好地感知、理解和与动态驾驶环境交互。本综述全面概述 DWM 的最新进展。根据预测场景的模态对现有方法进行分类,并总结它们对自动驾驶的具体贡献。此外,还回顾 DWM 研究范围内针对不同任务的原创 2025-03-05 00:15:00 · 1954 阅读 · 0 评论 -
学习现实世界人形机器人的起身策略
25年2月来自UIUC和Simon Fraser U的论文“Learning Getting-Up Policies for Real-World Humanoid Robots”。跌倒的自动恢复是人形机器人可靠部署的关键先决条件。由于人形机器人跌倒后可能处于各种不同的配置,并且人形机器人需要在具有挑战性的地形上运行,因此手工设计起身控制器非常困难。本文开发一个学习框架来生成控制器,使人形机器人能够从不同地形的不同配置中起身。与以前成功的人形运动学习应用不同,起身任务涉及复杂的接触模式,这需要准确建模碰原创 2025-03-04 00:15:00 · 1584 阅读 · 0 评论 -
大语言模型中的逻辑推理:综述
25年2月来自西湖大学、浙江师范大学和海南大学的论文“Logical Reasoning in Large Language Models: A Survey”。随着 OpenAI o3 和 DeepSeek-R1 等高级推理模型的出现,大语言模型 (LLM) 已展示出卓越的推理能力。然而,它们进行严格逻辑推理的能力仍是一个悬而未决的问题。本综述综合人工智能研究的关键领域 LLM 中逻辑推理的最新进展。它概述 LLM 中逻辑推理的范围、其理论基础以及用于评估推理能力的基准。分析不同推理范式(演绎、归纳、溯原创 2025-03-03 00:15:00 · 1118 阅读 · 0 评论 -
从系统 1 到系统 2:大语言模型推理的综述
25年2月来自阿联酋 MBZUAI、中科院自动化所、香港城市大学、香港科技大学广州分校、英国格拉斯哥的 Strathclyde 大学、小红书、华东师范大学和南方科技大学的论文“From System 1 to System 2: A Survey of Reasoning Large Language Models”。要实现人类水平的智能,需要改进从快速、直观、系统 1 到较慢、更慎重、系统 2 推理的过渡。虽然系统 1 擅长快速、启发式决策,但系统 2 依靠逻辑推理来做出更准确的判断并减少偏见。基础大原创 2025-03-02 00:15:00 · 1028 阅读 · 0 评论 -
MOBA:长上下文 LLMs 的混合块注意机制
25年2月来自月之暗面、清华和浙大的论文“MOBA: Mixture Of Block Attention For Long-context LLMs”。扩展有效上下文长度对于将大语言模型 (LLM) 推进到通用人工智能 (AGI) 至关重要。然而,传统注意机制固有的计算复杂度的二次增加,带来高昂的开销。现有的方法要么施加强偏结构,例如特定任务的汇聚(sink)注意或窗注意,要么将注意机制彻底修改为线性近似,其在复杂推理任务中的表现仍未得到充分探索。原创 2025-02-28 00:15:00 · 1064 阅读 · 0 评论 -
HOMIE:具有同构外骨骼座舱的人形机器人操控
25年2月来自上海AI实验室和香港中文大学的论文“HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit”。目前的人形遥操作系统要么缺乏可靠的低级控制策略,要么难以获取准确的全身控制命令,这使得遥操作人形机器人执行操控任务变得非常困难。为了解决这些问题,HOMIE,一种人形遥操作驾驶舱,它集成人形操控策略和低成本外骨骼硬件系统。该策略使人形机器人能够行走和下蹲到特定的高度,同时适应任意的上身姿势。这是通过基于强化学习的训原创 2025-02-26 00:15:00 · 1268 阅读 · 0 评论 -
面向机器人操作的协同、泛化和高效的双-系统
24年10月来自上海交大、香港大学、智元机器人和上海 AI 实验室的论文“Towards Synergistic, Generalized And Efficient Dual-system For Robotic Manipulation ”。随着多功能机器人系统在多样化和动态环境中运行的需求日益增长,这凸显一个通才策略的重要性,其利用大量跨具身数据语料库来促进广泛的适应性和高级推理。然而,通才策略会面临推理效率低下和训练成本高昂的问题。相反,专家策略是针对特定领域数据制定的,在任务级精度和效率方面表原创 2025-02-25 00:15:00 · 1245 阅读 · 0 评论 -
具有快慢思考的语言调节机器人操作
24年1月来自华东师范大学、美的集团和上海大学的论文“Language-Conditioned Robotic Manipulation with Fast and Slow Thinking”。语言调节机器人操作,旨在将自然语言指令转化为可执行动作,从简单的“拾取和放置”到需要意图识别和视觉推理的任务。受认知科学中的 Dual Process 理论的启发——该理论表明人类决策中存在两个平行的快速和慢速思考系统——引入快速和慢速思考机器人 (RFST),这是一个模仿人类认知架构的框架,用于对任务进行分类并原创 2025-02-25 00:15:00 · 1991 阅读 · 0 评论 -
LAMS:LLM 驱动自动模式切换辅助遥操作
25年2月来自 CMU 和匹兹堡大学的论文“LAMS: LLM-Driven Automatic Mode Switching for Assistive Teleoperation”。通过低自由度控制器(如操纵杆)遥操作高自由度 (DoF) 机器人操纵器,通常需要在控制模式之间频繁切换,其中每种模式将控制器运动映射到特定的机器人动作。手动执行这种频繁切换会使遥操作变得繁琐且效率低下。另一方面,现有的自动模式切换解决方案(例如基于启发式或基于学习的方法)通常是针对特定任务的,缺乏通用性。本文介绍 LLM原创 2025-02-24 00:15:00 · 854 阅读 · 0 评论 -
DeepSeek 提出原生稀疏注意:硬件对齐且原生可训练的稀疏注意
25年2月来自 DeepSeek-AI、北京大学和西雅图华盛顿大学的论文“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”。长上下文建模对于下一代语言模型至关重要,但标准注意机制的高计算成本带来巨大的计算挑战。稀疏注意为提高效率同时保持模型能力提供一个有希望的方向。NSA,一种原生可训练的稀疏注意机制,它将算法创新与硬件对齐的优化相结合,以实现高效的长上下文建模。NSA 采用动态分层稀疏策原创 2025-02-23 00:15:00 · 902 阅读 · 0 评论 -
DexterityGEN:前所未有灵活度的基础控制器
25年2月来自伯克利 BAIR 和 Meta FAIR 的论文“DexterityGEN: Foundation Controller for Unprecedented Dexterity”。教授机器人灵巧的操作技能(例如使用工具)是一项艰巨的挑战。当前的方法大致可分为两种策略:人类遥控(用于模仿学习)和模拟-到-现实的强化学习。第一种方法很难,因为人类很难在没有触觉反馈的情况下在不同实施例上做出安全灵巧的动作。第二种基于 RL 的方法则难以解决域差距问题,并且涉及对复杂任务进行高度任务特定的奖励工程。原创 2025-02-22 00:15:00 · 760 阅读 · 0 评论 -
高级推理的多样化推理与验证
25年2月来自波士顿大学、NotBadMath.AI、谷歌、哥伦比亚大学、MIT、Intuit公司和斯坦福大学的论文“Diverse Inference and Verification for Advanced Reasoning”。OpenAI o1、o3 和 DeepSeek R1 等推理 LLM 在数学和编码方面取得重大进展,但仍发现 IMO 组合问题、ARC 谜题和 HLE 问题等高级任务具有挑战性。本文用多样化的推理方法,在测试时结合多种模型和方法。数学和代码问题以及对其他问题拒绝抽样的验证,原创 2025-02-22 00:15:00 · 840 阅读 · 0 评论 -
O1 Embedder:让检索器思考后再行动
25年2月来自中科大和北京智源研究院的论文“O1 Embedder: Let Retrievers Think Before Action”。大语言模型 (LLM) 的功能日益强大,彻底改变人们获取和利用信息的方式。值得注意的是,LLM 擅长执行细粒度数据表示,这有助于精确检索信息。它们还可以根据外部参考生成高质量的答案,从而产生有用的知识。最近推出的推理模型(如 OpenAI O1 和 DeepSeek R1)标志着又一次飞跃,凸显 LLM 在提供最终答案之前进行渐进式思考的能力。这一突破显著提高处理原创 2025-02-21 00:15:00 · 1133 阅读 · 0 评论 -
CODEI/O:通过代码输入-输出预测压缩推理的模式
25年2月来自DeepSeek-AI、上海AI实验室和香港科大的论文“CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction”。推理是大语言模型的一项基本能力。虽然先前的研究主要集中于增强数学或代码生成等狭隘技能,但由于训练数据稀疏和碎片化,提高许多其他推理任务的性能仍然具有挑战性。为了解决这个问题, CODEI/O 将原始代码转换为代码输入-输出预测格式,系统地压缩各种推理模式,其固有地嵌入在上下文-落地的代码中。通原创 2025-02-21 00:15:00 · 1188 阅读 · 0 评论 -
LLM 推理中推理-时间计算技巧
25年2月来自香港科技大学广州分校的论文“Bag of Tricks for Inference-time Computation of LLM Reasoning”。随着大语言模型 (LLM) 的进步,解决复杂的推理任务越来越受到关注。推理-时间计算方法(例如 Best-of-N、波束搜索等)特别有价值,因为它们可以在不修改模型参数或不需要额外训练的情况下提高推理性能。然而,这些技术面临着实施挑战,大多数现有方法仍处于概念验证阶段,由于其计算复杂性和不同任务中的不同有效性,实际采用有限。原创 2025-02-20 00:15:00 · 1425 阅读 · 0 评论 -
数学推理中在推理规模化下检查假阳性解
25年2月来自中科大和微软亚洲研究院的论文“Examining False Positives under Inference Scaling for Mathematical Reasoning”。语言模型的最新进展已带来各种基准测试中数学推理能力的显著提升。然而,大多数基准测试依赖于自动评估方法,这些方法仅使用启发式方法比较最终答案,而不验证底层推理步骤。这种限制导致假阳性解,其中模型可能会产生正确的最终答案,但推理路径有缺陷。本文系统地研究语言模型求解数学问题中假阳性解的普遍性。其分析不同开源模型原创 2025-02-20 00:15:00 · 1089 阅读 · 0 评论 -
智体推理:使用工具的推理 LLM 用于深度研究
25年2月来自牛津大学的论文“Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research”。本技术报告介绍智体推理(Agentic Reasoning),这是一个通过集成外部工具使用智体来增强大语言模型 (LLM) 推理的框架。与仅依赖内部推理的传统 LLM 推理方法不同,智体推理动态地参与网络搜索、代码执行和结构化推理上下文记忆,以解决需要深入研究和多步逻辑推理的复杂问题。该框架引入思维图智体(Mind Map agent),它原创 2025-02-19 00:15:00 · 1683 阅读 · 0 评论 -
训练语言模型以高效推理
25年2月来自CMU的论文“Training Language Models to Reason Efficiently”。扩展模型大小和训练数据已带来大语言模型 (LLM) 的性能取得巨大进步。然而,这种方法的收益递减需要替代方法来提高模型能力,特别是在需要高级推理的任务中。利用长链思维的大型推理模型在解决问题的能力方面带来了前所未有的突破,但部署成本却与更长的生成有关。降低推理成本,对于这些模型的经济可行性、用户体验和环境可持续性至关重要。这项工作建议,训练大型推理模型以有效地推理。更准确地说,原创 2025-02-19 00:15:00 · 1056 阅读 · 0 评论 -
ScoreFlow:通过基于分数的偏好优化掌握 LLM 智体工作流程
25年2月来自 U of Chicago、Princeton U 和 U of Oxford 的论文“ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization”。最近的研究利用大语言模型多智体系统来解决复杂问题,同时试图减少构建它们所需的手动工作量,从而推动自动智体工作流优化方法的发展。然而,现有方法在依赖离散优化技术时,由于表征限制、缺乏适应性和可扩展性差,仍然缺乏灵活性。本文用 ScoreFlow原创 2025-02-18 00:15:00 · 996 阅读 · 0 评论 -
面向长范围交互式 LLM 智体的强化学习
25年2月来自 Apple 的论文“Reinforcement Learning for Long-Horizon Interactive LLM Agents”。交互式数字代理 (IDA) 利用状态数字环境的 API 来执行任务以响应用户请求。虽然由指令调整的大语言模型 (LLM) 驱动 IDA 可以对多步交换中接口调用的反馈做出反应,但它们尚未在各自的数字环境中进行训练。之前的方法在 AppWorld 等复杂基准测试中完成的任务不到一半。本文提出一种强化学习 (RL) 方法,可直接在目标环境中训练原创 2025-02-18 00:15:00 · 1493 阅读 · 0 评论 -
探索结果奖励模型对数学推理学习的极限
25年2月来自上海AI实验室、上海交大、香港中文大学和香港生成AI研发中心(HKGAI)的论文“Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning”。推理能力,特别是解决复杂数学问题的能力,是通用智能的重要组成部分。 OpenAI 的 o 系列模型,在推理任务上取得了令人瞩目的进展。然而,完整的技术细节仍未披露,人们认为肯定会采用的技术只有强化学习 (RL) 和长链思维。本文提出一种 RL 框架,称为 ORE原创 2025-02-17 02:30:00 · 805 阅读 · 0 评论