
人工智能
文章平均质量分 88
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
大语言模型的长思维链推理:综述(下)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 399 阅读 · 0 评论 -
大语言模型的长思维链推理:综述(上)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 1223 阅读 · 0 评论 -
Gemma 3 技术报告
Gemma 3,是 Gemma 系列轻量级开放模型中的多模态成员,其规模从 10 亿到 270 亿个参数不等。此版引入视觉理解能力、更广泛的语言覆盖范围和更长的上下文(至少 128K 个tokens)。还更改模型的架构,减少在长上下文中往往会爆炸的 KV-缓存内存。这是通过增加局部与全局注意层的比例并保持局部注意的跨度较短来实现的。Gemma 3 模型经过蒸馏训练,无论是预训练版还是指令微调版,其性能都优于 Gemma 2。特别是,后训练方法显著提高数学、聊天、指令遵循和多语言能力,使 Gemma3-4B-原创 2025-03-17 00:15:00 · 1334 阅读 · 0 评论 -
行为机器人套件:简化日常家庭活动中真实世界的全身操控
25年3月来自斯坦福李飞飞团队的论文“BEHAVIOR ROBOT SUITE: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities”。现实世界的家务任务对移动机械操作机器人提出了重大挑战。对现有机器人基准的分析表明,成功的任务执行取决于三个关键的全身控制能力:双手协调、稳定和精确的导航以及广泛的末端执行器可达性。实现这些能力需要精心的硬件设计,但由此产生的系统复杂性使视觉运动策略学习进一步复原创 2025-03-16 00:15:00 · 897 阅读 · 0 评论 -
TidyBot++:用于机器人学习开源的完整移动机械手
24年12月来自普林斯顿、斯坦福和 dexterity.ai 的论文“TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning”。要充分利用模仿学习在移动机械操作方面的最新进展,需要收集大量人工引导的演示。本文提出一种开源设计,用于设计一种廉价、坚固、灵活的移动机械手,该机械手可支撑任意臂,从而实现各种现实世界的家用移动机械操作任务。至关重要的是,设计使用动力脚轮,使移动基座是完全完整的,能够独立且同时控制所有平面自原创 2025-03-16 00:15:00 · 534 阅读 · 0 评论 -
Satori:通过行动-思维-链进行强化学习,通过自回归搜索增强 LLM 推理能力
25年2月来自MIT、新加坡技术和设计大学、哈佛、MIT- IBM实验室和UMass的论文“Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search”。大语言模型 (LLM) 已在不同领域展现出卓越的推理能力。最近的研究表明,增加测试-时间计算可增强 LLM 的推理能力。这通常涉及在外部 LLM 验证者的指导下在推理时进行大量采样,从而形成双-玩家原创 2025-03-13 00:15:00 · 1974 阅读 · 0 评论 -
学习现实世界人形机器人的起身策略
25年2月来自UIUC和Simon Fraser U的论文“Learning Getting-Up Policies for Real-World Humanoid Robots”。跌倒的自动恢复是人形机器人可靠部署的关键先决条件。由于人形机器人跌倒后可能处于各种不同的配置,并且人形机器人需要在具有挑战性的地形上运行,因此手工设计起身控制器非常困难。本文开发一个学习框架来生成控制器,使人形机器人能够从不同地形的不同配置中起身。与以前成功的人形运动学习应用不同,起身任务涉及复杂的接触模式,这需要准确建模碰原创 2025-03-04 00:15:00 · 1578 阅读 · 0 评论 -
大语言模型中的逻辑推理:综述
25年2月来自西湖大学、浙江师范大学和海南大学的论文“Logical Reasoning in Large Language Models: A Survey”。随着 OpenAI o3 和 DeepSeek-R1 等高级推理模型的出现,大语言模型 (LLM) 已展示出卓越的推理能力。然而,它们进行严格逻辑推理的能力仍是一个悬而未决的问题。本综述综合人工智能研究的关键领域 LLM 中逻辑推理的最新进展。它概述 LLM 中逻辑推理的范围、其理论基础以及用于评估推理能力的基准。分析不同推理范式(演绎、归纳、溯原创 2025-03-03 00:15:00 · 1092 阅读 · 0 评论 -
从系统 1 到系统 2:大语言模型推理的综述
25年2月来自阿联酋 MBZUAI、中科院自动化所、香港城市大学、香港科技大学广州分校、英国格拉斯哥的 Strathclyde 大学、小红书、华东师范大学和南方科技大学的论文“From System 1 to System 2: A Survey of Reasoning Large Language Models”。要实现人类水平的智能,需要改进从快速、直观、系统 1 到较慢、更慎重、系统 2 推理的过渡。虽然系统 1 擅长快速、启发式决策,但系统 2 依靠逻辑推理来做出更准确的判断并减少偏见。基础大原创 2025-03-02 00:15:00 · 1017 阅读 · 0 评论 -
LeapVAD:通过认知感知和 Dual-Process 思维实现自动驾驶的飞跃
25年1月来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文“LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking”。尽管自动驾驶技术取得长足进步,但由于推理能力有限,数据驱动方法仍然难以应对复杂场景。与此同时,随着视觉语言模型的普及,知识驱动的自动驾驶系统也得到了长足发展。本文提出一种基于认知感知和 Dual-Process 思维的新方法 LeapVAD。该方法实现原创 2025-03-01 00:15:00 · 1189 阅读 · 0 评论 -
FASIONAD:自适应反馈的类人自动驾驶中快速和慢速思维融合系统
24年11月来自清华、早稻田大学、明尼苏达大学、多伦多大学、厦门大学马来西亚分校、电子科大(成都)、智平方科技和河南润泰数字科技的论文“FASIONAD : FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback”。确保安全、舒适和高效的导航是自动驾驶系统开发和可靠性的基础。虽然在大型数据集上训练的端到端模型在标准驾驶情况下表现良好,但它们往往难以应对罕见的长尾事件。大语原创 2025-03-01 00:15:00 · 969 阅读 · 0 评论 -
MOBA:长上下文 LLMs 的混合块注意机制
25年2月来自月之暗面、清华和浙大的论文“MOBA: Mixture Of Block Attention For Long-context LLMs”。扩展有效上下文长度对于将大语言模型 (LLM) 推进到通用人工智能 (AGI) 至关重要。然而,传统注意机制固有的计算复杂度的二次增加,带来高昂的开销。现有的方法要么施加强偏结构,例如特定任务的汇聚(sink)注意或窗注意,要么将注意机制彻底修改为线性近似,其在复杂推理任务中的表现仍未得到充分探索。原创 2025-02-28 00:15:00 · 1057 阅读 · 0 评论 -
HOMIE:具有同构外骨骼座舱的人形机器人操控
25年2月来自上海AI实验室和香港中文大学的论文“HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit”。目前的人形遥操作系统要么缺乏可靠的低级控制策略,要么难以获取准确的全身控制命令,这使得遥操作人形机器人执行操控任务变得非常困难。为了解决这些问题,HOMIE,一种人形遥操作驾驶舱,它集成人形操控策略和低成本外骨骼硬件系统。该策略使人形机器人能够行走和下蹲到特定的高度,同时适应任意的上身姿势。这是通过基于强化学习的训原创 2025-02-26 00:15:00 · 1265 阅读 · 0 评论 -
面向机器人操作的协同、泛化和高效的双-系统
24年10月来自上海交大、香港大学、智元机器人和上海 AI 实验室的论文“Towards Synergistic, Generalized And Efficient Dual-system For Robotic Manipulation ”。随着多功能机器人系统在多样化和动态环境中运行的需求日益增长,这凸显一个通才策略的重要性,其利用大量跨具身数据语料库来促进广泛的适应性和高级推理。然而,通才策略会面临推理效率低下和训练成本高昂的问题。相反,专家策略是针对特定领域数据制定的,在任务级精度和效率方面表原创 2025-02-25 00:15:00 · 1235 阅读 · 0 评论 -
具有快慢思考的语言调节机器人操作
24年1月来自华东师范大学、美的集团和上海大学的论文“Language-Conditioned Robotic Manipulation with Fast and Slow Thinking”。语言调节机器人操作,旨在将自然语言指令转化为可执行动作,从简单的“拾取和放置”到需要意图识别和视觉推理的任务。受认知科学中的 Dual Process 理论的启发——该理论表明人类决策中存在两个平行的快速和慢速思考系统——引入快速和慢速思考机器人 (RFST),这是一个模仿人类认知架构的框架,用于对任务进行分类并原创 2025-02-25 00:15:00 · 1988 阅读 · 0 评论 -
LAMS:LLM 驱动自动模式切换辅助遥操作
25年2月来自 CMU 和匹兹堡大学的论文“LAMS: LLM-Driven Automatic Mode Switching for Assistive Teleoperation”。通过低自由度控制器(如操纵杆)遥操作高自由度 (DoF) 机器人操纵器,通常需要在控制模式之间频繁切换,其中每种模式将控制器运动映射到特定的机器人动作。手动执行这种频繁切换会使遥操作变得繁琐且效率低下。另一方面,现有的自动模式切换解决方案(例如基于启发式或基于学习的方法)通常是针对特定任务的,缺乏通用性。本文介绍 LLM原创 2025-02-24 00:15:00 · 852 阅读 · 0 评论 -
DeepSeek 提出原生稀疏注意:硬件对齐且原生可训练的稀疏注意
25年2月来自 DeepSeek-AI、北京大学和西雅图华盛顿大学的论文“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”。长上下文建模对于下一代语言模型至关重要,但标准注意机制的高计算成本带来巨大的计算挑战。稀疏注意为提高效率同时保持模型能力提供一个有希望的方向。NSA,一种原生可训练的稀疏注意机制,它将算法创新与硬件对齐的优化相结合,以实现高效的长上下文建模。NSA 采用动态分层稀疏策原创 2025-02-23 00:15:00 · 899 阅读 · 0 评论 -
DexterityGEN:前所未有灵活度的基础控制器
25年2月来自伯克利 BAIR 和 Meta FAIR 的论文“DexterityGEN: Foundation Controller for Unprecedented Dexterity”。教授机器人灵巧的操作技能(例如使用工具)是一项艰巨的挑战。当前的方法大致可分为两种策略:人类遥控(用于模仿学习)和模拟-到-现实的强化学习。第一种方法很难,因为人类很难在没有触觉反馈的情况下在不同实施例上做出安全灵巧的动作。第二种基于 RL 的方法则难以解决域差距问题,并且涉及对复杂任务进行高度任务特定的奖励工程。原创 2025-02-22 00:15:00 · 749 阅读 · 0 评论 -
高级推理的多样化推理与验证
25年2月来自波士顿大学、NotBadMath.AI、谷歌、哥伦比亚大学、MIT、Intuit公司和斯坦福大学的论文“Diverse Inference and Verification for Advanced Reasoning”。OpenAI o1、o3 和 DeepSeek R1 等推理 LLM 在数学和编码方面取得重大进展,但仍发现 IMO 组合问题、ARC 谜题和 HLE 问题等高级任务具有挑战性。本文用多样化的推理方法,在测试时结合多种模型和方法。数学和代码问题以及对其他问题拒绝抽样的验证,原创 2025-02-22 00:15:00 · 824 阅读 · 0 评论 -
O1 Embedder:让检索器思考后再行动
25年2月来自中科大和北京智源研究院的论文“O1 Embedder: Let Retrievers Think Before Action”。大语言模型 (LLM) 的功能日益强大,彻底改变人们获取和利用信息的方式。值得注意的是,LLM 擅长执行细粒度数据表示,这有助于精确检索信息。它们还可以根据外部参考生成高质量的答案,从而产生有用的知识。最近推出的推理模型(如 OpenAI O1 和 DeepSeek R1)标志着又一次飞跃,凸显 LLM 在提供最终答案之前进行渐进式思考的能力。这一突破显著提高处理原创 2025-02-21 00:15:00 · 1128 阅读 · 0 评论 -
CODEI/O:通过代码输入-输出预测压缩推理的模式
25年2月来自DeepSeek-AI、上海AI实验室和香港科大的论文“CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction”。推理是大语言模型的一项基本能力。虽然先前的研究主要集中于增强数学或代码生成等狭隘技能,但由于训练数据稀疏和碎片化,提高许多其他推理任务的性能仍然具有挑战性。为了解决这个问题, CODEI/O 将原始代码转换为代码输入-输出预测格式,系统地压缩各种推理模式,其固有地嵌入在上下文-落地的代码中。通原创 2025-02-21 00:15:00 · 1181 阅读 · 0 评论 -
LLM 推理中推理-时间计算技巧
25年2月来自香港科技大学广州分校的论文“Bag of Tricks for Inference-time Computation of LLM Reasoning”。随着大语言模型 (LLM) 的进步,解决复杂的推理任务越来越受到关注。推理-时间计算方法(例如 Best-of-N、波束搜索等)特别有价值,因为它们可以在不修改模型参数或不需要额外训练的情况下提高推理性能。然而,这些技术面临着实施挑战,大多数现有方法仍处于概念验证阶段,由于其计算复杂性和不同任务中的不同有效性,实际采用有限。原创 2025-02-20 00:15:00 · 1420 阅读 · 0 评论 -
数学推理中在推理规模化下检查假阳性解
25年2月来自中科大和微软亚洲研究院的论文“Examining False Positives under Inference Scaling for Mathematical Reasoning”。语言模型的最新进展已带来各种基准测试中数学推理能力的显著提升。然而,大多数基准测试依赖于自动评估方法,这些方法仅使用启发式方法比较最终答案,而不验证底层推理步骤。这种限制导致假阳性解,其中模型可能会产生正确的最终答案,但推理路径有缺陷。本文系统地研究语言模型求解数学问题中假阳性解的普遍性。其分析不同开源模型原创 2025-02-20 00:15:00 · 1082 阅读 · 0 评论 -
训练语言模型以高效推理
25年2月来自CMU的论文“Training Language Models to Reason Efficiently”。扩展模型大小和训练数据已带来大语言模型 (LLM) 的性能取得巨大进步。然而,这种方法的收益递减需要替代方法来提高模型能力,特别是在需要高级推理的任务中。利用长链思维的大型推理模型在解决问题的能力方面带来了前所未有的突破,但部署成本却与更长的生成有关。降低推理成本,对于这些模型的经济可行性、用户体验和环境可持续性至关重要。这项工作建议,训练大型推理模型以有效地推理。更准确地说,原创 2025-02-19 00:15:00 · 1052 阅读 · 0 评论 -
面向长范围交互式 LLM 智体的强化学习
25年2月来自 Apple 的论文“Reinforcement Learning for Long-Horizon Interactive LLM Agents”。交互式数字代理 (IDA) 利用状态数字环境的 API 来执行任务以响应用户请求。虽然由指令调整的大语言模型 (LLM) 驱动 IDA 可以对多步交换中接口调用的反馈做出反应,但它们尚未在各自的数字环境中进行训练。之前的方法在 AppWorld 等复杂基准测试中完成的任务不到一半。本文提出一种强化学习 (RL) 方法,可直接在目标环境中训练原创 2025-02-18 00:15:00 · 1490 阅读 · 0 评论 -
探索结果奖励模型对数学推理学习的极限
25年2月来自上海AI实验室、上海交大、香港中文大学和香港生成AI研发中心(HKGAI)的论文“Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning”。推理能力,特别是解决复杂数学问题的能力,是通用智能的重要组成部分。 OpenAI 的 o 系列模型,在推理任务上取得了令人瞩目的进展。然而,完整的技术细节仍未披露,人们认为肯定会采用的技术只有强化学习 (RL) 和长链思维。本文提出一种 RL 框架,称为 ORE原创 2025-02-17 02:30:00 · 796 阅读 · 0 评论 -
1B LLM 能否超越 405B LLM?重新思考计算最优测试-时间规模化
25年2月来自上海AI实验室、清华大学、哈工大和北邮的论文“Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling”。测试-时间规模化 (TTS) 是通过在推理阶段使用额外计算来提升大语言模型 (LLM) 性能的重要方法。然而,当前的研究并没有系统地分析策略模型、过程奖励模型 (PRM) 和问题难度如何影响 TTS。这种分析的缺乏限制对 TTS 方法的理解和实际使用。本文关注两个核心问题:(1)在不同的策略模型、原创 2025-02-15 00:15:00 · 1080 阅读 · 0 评论 -
RoboGrasp:一种用于稳健机器人控制的通用抓取策略
25年1月来自北京大学和哈佛大学的论文“RoboGrasp: A Universal Grasping Policy for Robust Robotic Control”。模仿学习和世界模型在推进通用机器人学习方面显示出巨大的潜力,而机器人抓取仍然是实现精确操控的关键挑战。现有方法通常严重依赖机械臂状态数据和 RGB 图像,导致过拟合特定目标形状或位置。为了解决这些限制,Robo-Grasp,一个通用的抓取策略框架,将预训练的抓取检测模型与机器人学习相结合。利用来自目标检测和分割任务的强大视觉引导,R原创 2025-02-12 00:15:00 · 987 阅读 · 0 评论 -
LIMO:上海交大的工作 “少即是多” LLM 推理
25年2月来自上海交大、SII 和 GAIR 的论文“LIMO: Less is More for Reasoning”。一个挑战是在大语言模型(LLM)中的复杂推理。虽然传统观点认为复杂的推理任务需要大量的训练数据(通常超过 100,000 个示例),但本文展示只需很少的示例就可以有效地引发复杂的数学推理能力。这个不仅挑战对海量数据要求的假设,也挑战监督微调(SFT)主要造成记忆而不是泛化的普遍看法。通过全面的实验,提出的模型 LIMO 在数学推理方面表现出前所未有的性能和效率。原创 2025-02-09 00:15:00 · 1435 阅读 · 0 评论 -
s1:简单测试-时间规模化
25年1月来自斯坦福、西雅图 UW、AI2 和 Contextual AI 的论文“s1: Simple test-time scaling”。测试-时间规模化是一种很有前途的语言建模新方法,它使用额外的测试-时间计算来提高性能。最近,OpenAI 的 o1 模型展示这种能力,但并未公开分享其方法,导致许多复制工作。本文寻求最简单的方法来实现测试时间规模化和强大的推理性能。首先,根据通过消融验证的三个标准(难度、多样性和质量)整理一个包含 1,000 个问题和推理痕迹的小型数据集 s1K。其次,开发预算原创 2025-02-08 00:15:00 · 1183 阅读 · 0 评论 -
ToddlerBot:用于运动操纵的开源 ML 兼容人形机器人平台
25年2月来自斯坦福的论文“ToddlerBot: Open-Source ML-Compatible Humanoid Platform for Loco-Manipulation”。由数据驱动的基于学习机器人研究,需要一种新的机器人硬件设计方法——既可以作为策略执行的平台,也可以作为用于训练策略的具体数据收集工具。本文推出 ToddlerBot,这是一个低成本、开源的人形机器人平台,专为可扩展的机器人和人工智能策略学习和研究而设计。ToddlerBot 能够无缝获取高质量的模拟和真实世界数据。即插即原创 2025-02-07 00:15:00 · 1201 阅读 · 0 评论 -
自主机器人将强化学习与基础模型相结合:方法与观点
24年10月来自瑞士 SUPSI 等大学的论文“Integrating Reinforcement Learning with Foundation Models for Autonomous Robotics: Methods and Perspectives”。基础模型 (FM) 是在大量未标记数据集上进行预训练的大型深度学习模型,在理解复杂模式和生成复杂输出方面表现出强大的能力。然而,它们往往难以适应特定的任务。强化学习 (RL) 允许智体通过交互和反馈进行学习,它提供一个令人信服的解决方案。将原创 2025-02-02 00:15:00 · 634 阅读 · 0 评论 -
推理语言模型:蓝图
25年1月来自ETH、Cledar(前欧洲核研究理事会 CERN 的科学家创立,AI/ML咨询公司)、德国化工公司 BASF SE 和波兰超级计算和网络中心 Cyfronet AGH 的论文“Reasoning Language Models: A Blueprint”。推理语言模型 (RLM),也称为大型推理模型 (LRM),例如 OpenAI 的 o1 和 o3、DeepSeek-V3 和阿里巴巴的 QwQ,通过使用高级推理机制扩展大语言模型 (LLM),重新定义 AI 的问题解决能力。然而,它们的原创 2025-02-02 00:15:00 · 878 阅读 · 0 评论 -
通过强化学习和推理规模化推进语言模型推理
25年1月来自清华和智谱的论文“Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling”。大语言模型 (LLM) 在复杂推理任务中表现出了卓越的能力。然而,现有的方法主要依赖于模仿学习,难以实现有效的测试-时间规模化。虽然强化学习 (RL) 有望实现自我探索和从反馈中学习,但最近的尝试在复杂推理方面仅取得了适度的进步。本文提出 T1 来通过鼓励探索和理解推理扩展来扩展 RL。首先使用集原创 2025-02-01 00:15:00 · 1071 阅读 · 0 评论 -
HuatuoGPT-o1, 采用 LLM 的医学复杂推理
24年12月来自香港中文大学和深圳大数据研究院的论文“HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs”。OpenAI o1 的突破凸显通过增强推理能力来改进 LLM 的潜力。然而,大多数推理研究都集中在数学任务上,而医学等领域尚未得到充分探索。医学领域虽然与数学不同,但考虑到医疗保健的高标准,它也需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理具有挑战性。为了解决这个问题,提出可验证的医学问题,并使用医学验证器来检查模原创 2025-01-31 00:15:00 · 862 阅读 · 1 评论 -
DeepSeekMath:在开放语言模型中突破数学推理的极限
24年4月来自DeepSeek-AI、清华和北大的论文“DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models”。数学推理因其复杂性和结构性而对语言模型构成了重大挑战。本文引入 DeepSeekMath 7B,它继续使用来自 Common Crawl 的 120B 个数学相关tokens以及自然语言和代码数据,对 DeepSeek-Coder-Base-v1.5 7B 进行预训练。DeepSee原创 2025-01-30 00:15:00 · 2087 阅读 · 0 评论 -
O1-coder:O1 在编码方面的复制
24年12月来自北京交大的论文“o1-coder: an o1 replication for coding”。O1-CODER,试图复制 OpenAI 的 o1 模型,重点关注编码的任务。它集成强化学习 (RL) 和蒙特卡洛树搜索 (MCTS),以增强模型的系统-2 思维能力。该框架包括训练测试用例生成器 (TCG) 进行标准化代码测试,使用 MCTS 生成具有推理过程的代码数据,以及迭代微调策略模型以最初生成伪代码,然后生成完整代码。该报告还讨论了在实际应用中部署类似 o1 模型的机遇和挑战,建议过渡原创 2025-01-29 00:15:00 · 1060 阅读 · 0 评论 -
PRIME:通过隐式奖励进行过程强化
25年1月来自清华大学的工作报告 “Process Reinforcement through Implicit Rewards”。之前作者提出隐式 PRM,即无需进程标签即可获得免费进程奖励。基于此,本文提出 PRIME(通过隐式奖励进行过程强化),一种具有过程奖励的在线 RL 开源解决方案,旨在提高语言模型的推理能力,使其超越模仿或提炼。借助 PRIME,从 Qwen2.5-Math-7B-Base 开始,训练的模型 Eurus-2-7B-PRIME 在 AIME 2024 上实现了 26.7% 的原创 2025-01-28 00:15:00 · 1221 阅读 · 0 评论 -
LLaMA-Berry:通过类似 O1 的蒙特卡洛树搜索实现奥林匹克级数学推理的成对优化
24年11月来自复旦大学、上海AI实验室、UC Merced、香港理工、新南威尔士大学、上海交大和斯坦福大学的论文“LLaMA-Berry: Pairwise Optimization for Olympiad-level Mathematical Reasoning via O1-like Monte Carlo Tree Search”。本文提出一个数学推理框架 LLaMA-Berry,用于增强大语言模型 (LLM) 的问题求解能力。该框架将蒙特卡洛树搜索与自我细化 (SR-MCTS) 相结合以优化原创 2025-01-27 00:15:00 · 660 阅读 · 1 评论 -
ReST-MCTS∗:通过过程奖励引导树搜索进行 LLM 自训练
24年11月来自清华和加州理工的论文“ReST-MCTS∗: LLM Self-Training via Process Reward Guided Tree Search”。LLM 自训练的最新方法,主要依赖于 LLM 生成响应并过滤那些具有正确输出答案的响应作为训练数据。这种方法通常会产生低质量的微调训练集(例如,错误的规划或中间推理)。本文开发一种强化自训练方法,称为 ReST-MCTS∗,该方法基于将过程奖励指导与树搜索 MCTS∗ 相结合,以收集更高质量的推理轨迹以及每步价值来训练策略和奖励模原创 2025-01-27 00:15:00 · 993 阅读 · 0 评论