人工智能_三谷秋水的博客-CSDN博客

人工智能

关注

文章平均质量分 88

关注数：文章数：428 文章阅读量：514989 文章收藏量：6457

作者: 三谷秋水

计算机视觉、图像视频处理、机器学习（深度学习）、自动驾驶、大模型和具身智体。

展开

TTRL：测试-时间强化学习

25年4月来自清华和上海AI实验室的论文“TTRL: Test-Time Reinforcement Learning”。本文研究在大语言模型 (LLM) 中针对推理任务的无明确标签数据强化学习 (RL)。该问题的核心挑战是在无法访问真实信息的情况下在推理过程中进行奖励估计。虽然这种设置似乎难以捉摸，但测试-时间规模化 (TTS) 中的常见做法（例如多数投票）可以产生令人惊讶的有效奖励，适合推动 RL 训练。这项工作引入测试-时间强化学习 (TTRL)

原创 2025-06-03 00:15:00 · 834 阅读 · 0 评论
RM-R1：奖励建模为推理

25年5月来自伊利诺伊州 UIUC、加州 UCSD、德州 TAMU 和新泽西州 Stevens 理工的论文“RM-R1: Reward Modeling as Reasoning”。奖励建模对于通过从人类反馈中进行强化学习将大语言模型与人类偏好相一致至关重要。为了提供准确的奖励信号，奖励模型 (RM) 应该在分配分数或判断之前激发深度思考并进行可解释的推理。受到推理密集型任务中长思维链最新进展的启发，假设并验证将推理能力集成到奖励建模中可以显著提高 RM 的可解释性和性能。为此，本文引入一类生成奖励模型

原创 2025-06-03 00:15:00 · 990 阅读 · 0 评论
快速方法：Speedy MASt3R

25年3月来自Arizona State 和 JHU的论文“Speedy MASt3R”。图像匹配是 3D 视觉算法和流程的基本组成部分，在精确的场景重建和定位中发挥着至关重要的作用。MASt3R [11] 利用 DUSt3R [24] 并引入一种快速互易匹配方案，将图像匹配重新定义为一项 3D 任务，该方案在保持理论验证的同时，将匹配速度提高了几个数量级。

原创 2025-05-28 00:15:00 · 1968 阅读 · 0 评论
MASt3R-SLAM：具有 3D 重建先验的实时密集 SLAM

24年12月来自英国 ICL 的论文“MASt3R-SLAM：具有 3D 重建先验的实时密集 SLAM”， CVPR'25录取。本文提出一个实时单目密集 SLAM 系统，该系统由 MASt3R 自下而上设计而成，MASt3R 是一个双视图 3D 重建和匹配先验。凭借这一强大的先验，尽管系统没有对唯一相机中心以外的固定或参数相机模型做出任何假设，但它在野外视频序列上仍然具有鲁棒性。其引入点图匹配、相机跟踪和局部融合、图构建和回环以及二阶全局优化的有效方法。在已知标定的情况下，对系统进行简单的修改即可在各种

原创 2025-05-28 00:15:00 · 1813 阅读 · 0 评论
ROBOVERSE：面向可扩展和可泛化机器人学习的统一平台、数据集和基准

25年4月来自UC Berkeley、北大、USC、UMich、UIUC、Stanford、CMU、UCLA 和北京通用 AI 研究院（BIGAI）的论文“ROBOVERSE: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning”。数据扩展和标准化评估基准，推动了自然语言处理和计算机视觉领域的重大进步。然而，机器人技术在数据扩展和建立可靠的评估协议方面面临着独特的

原创 2025-05-07 12:44:43 · 1347 阅读 · 0 评论
开源大模型新标杆！Moxin-7B：从预训练到强化学习，全面透明的AI革新

Moxin 7B，这是一款完全开源的 LLM，它遵循模型开放框架 (MOF) 开发。MOF 是一个基于模型完备性和开放性评估 AI 模型的分级分类系统，秉承开放科学、开源、开放数据和开放访问的原则。我们的模型通过全面发布预训练代码和配置、训练和微调数据集以及中间和最终检查点，达到了 MOF 分类的最高级别“开放科学”，旨在持续致力于完全开源 LLM。预训练成本约为 16 万美元。在预训练获得基础模型后，我们使用 SOTA 训练后框架和指导数据对 Moxin Base 模型进行微调，以获得 Moxin Ins

原创 2025-05-01 08:34:17 · 1371 阅读 · 0 评论
LLM 对齐技术综述：RLHF、RLAIF、PPO 和 DPO 等

24年7月来自 Salesforce 的论文"A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and more"。随着自监督学习的进步、预训练语料库中数万亿个 token 的出现、指令微调以及拥有数十亿参数的大型 Transformer 的开发，大语言模型 (LLM) 现已能够对人类查询生成真实且连贯的响应。然而，训练数据的质量参差不齐可能会导致生成不理想的响应，从而带来重大挑战。在过去的两年中，人们从不

原创 2025-05-01 00:15:00 · 1167 阅读 · 0 评论
高效 Transformer 的综述

20年9月来自谷歌研究的论文“Efficient Transformers: A Survey”。文章主要针对一类X-former模型，例如Reformer, Linformer, Performer, Longformer为例，这些对原版Transformer做了改进，提高了其计算和内存的效率。

原创 2025-04-30 00:15:00 · 634 阅读 · 0 评论
通过面向目标的奖励弥合人与机器人的灵活性差距

24年10月来自纽约大学的论文“Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards”。直接通过人类视频训练机器人是机器人技术和计算机视觉领域的一个新兴领域。尽管双指机械手在双指夹持器方面取得了显著进展，但以这种方式让多指机械手学习自主任务仍然充满挑战。造成这一困难的一个关键原因是，由于形态差异，在人手上训练的策略可能无法直接迁移到机械手上。本研究提出 HUDOR 技术，它能够通过直接从人类视频中计算奖励来在线

原创 2025-04-20 00:15:00 · 768 阅读 · 0 评论
PROGRESSOR：具有自监督在线细化的感知引导奖励估计器

24年11月来自芝加哥大学和 TTI 的论文“PROGRESSOR: A Perceptually Guided Reward Estimator with Self-Supervised Online Refinement”。PROGRESSOR，从视频中学习与任务无关的奖励函数，从而能够在无需人工监督的情况下，通过目标条件强化学习（RL）进行策略训练。该奖励的基础是对任务进度分布的估计，该估计是当前、初始和目标观测值的函数，并以自监督的方式学习。至关重要的是，PROGRESSOR 是在线 RL 训练

原创 2025-04-20 00:15:00 · 773 阅读 · 0 评论
ORCA：一款开源、可靠、成本高效、拟人化的机械手，可实现不间断灵巧任务学习

25年4月来自瑞士 ETH 的论文“ORCA: An Open-Source, Reliable, Cost-Effective, Anthropomorphic Robotic Hand for Uninterrupted Dexterous Task Learning”。通用机器人应该拥有类似人类的灵巧性和敏捷性，才能像人一样灵活地执行任务。类似人类的外形设计，进一步促进海量人手交互数据集的使用。然而，灵巧操作的主要瓶颈不仅在于软件，更在于硬件。接近人类能力的机械手通常价格高昂、体积庞大，或者需要企业

原创 2025-04-12 00:15:00 · 1511 阅读 · 0 评论
具身推理器：协同视觉搜索、推理和行动，实现具身交互任务

25年3月来自浙大、中科院软件所、中科院大学、阿里达摩院、南京软件所、南邮和河海大学的论文“Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks”。深度思维模型的最新进展，已在数学和编码任务上展现出卓越的推理能力。然而，它们在需要通过图像动作交错轨迹与环境持续交互的具身域中的有效性仍未得到充分探索。本文提出了具身推理器，该模型将 o1 式推理扩展到交互式具身搜索

原创 2025-04-09 00:15:00 · 1017 阅读 · 0 评论
AhaRobot：一个用于具身人工智能的低成本开源双手移动机械手

25年3月来自天津大学的论文“AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI”。在开放世界环境中的导航和操控，仍然是具身人工智能中尚未解决的挑战。商用移动操控机器人的高成本，严重限制其在现实场景中的研究。为了解决这个问题，本文提出 AhaRobot，这是一种低成本、完全开源的双臂移动操控机器人系统，其硬件成本仅为 1,000 美元（不包括可选的计算资源），不到流行移动机器人成本的 1/15。AhaR

原创 2025-03-31 00:15:00 · 900 阅读 · 0 评论
系统 0/1/2/3：多时间尺度具身集体认知系统的四元-过程理论

25年3月来自日本京都大学、立命馆大学、庆应义塾大学、东京大学、大阪大学和欧姆龙公司的论文“System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems”。本文介绍系统 0/1/2/3 框架，作为二元-过程（dual-process）理论的扩展，采用四元-过程（quad-process）认知模型。在系统 1（快速、直觉思维）和系统 2（慢速、深思熟虑思维）的基础上，结合系统 0

原创 2025-03-30 00:15:00 · 977 阅读 · 0 评论
COMPASS：通过残差强化学习和技能合成实现跨具身移动策略

25年2月来自 Nvidia、UC Berkeley 和 UT Austin 的论文“COMPASS: Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis”。随着机器人越来越多地部署在不同的应用领域，可泛化的跨具身移动策略变得越来越重要。虽然经典的移动栈已被证明在特定的机器人平台上有效，但它们在泛化到新具身时带来了重大挑战。基于学习的方法，例如模仿学习 (IL) 和强化学习 (RL)，提供了替代解决方案，但受到协变量漂移

原创 2025-03-29 00:15:00 · 1017 阅读 · 0 评论
DexGrasp Anything：具有物理-觉察的普遍机器人灵巧抓取

25年3月来自上海科技大学的论文“DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness”。能够抓取任何物体的灵巧手，对于通用具身智能机器人的开发至关重要。然而，由于灵巧手的自由度高，物体种类繁多，以鲁棒的方式生成高质量、可用的抓取姿势是一项重大挑战。DexGrasp Anything，将物理约束有效地集成到基于扩散生成模型的训练和采样阶段，在几乎所有开放数据集上均实现最佳性能。此外，提

原创 2025-03-29 00:15:00 · 1150 阅读 · 0 评论
停止过度思考：大语言模型的有效推理综述（下）

25年3月来自休斯敦 Rice U 的论文“Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models”。大语言模型 (LLM) 在复杂任务中表现出卓越的能力。大型推理模型 (LRM)（例如 OpenAI o1 和 DeepSeek-R1）的最新进展通过利用监督微调 (SFT) 和强化学习 (RL) 技术来增强思维链 (CoT) 推理，进一步提高了数学和编程等系统 2 推理领域的性能。然而，虽然较长的 CoT 推

原创 2025-03-27 00:15:00 · 1238 阅读 · 0 评论
停止过度思考：大语言模型的有效推理综述（上）

25年3月来自休斯敦 Rice U 的论文“Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models”。大语言模型 (LLM) 在复杂任务中表现出卓越的能力。大型推理模型 (LRM)（例如 OpenAI o1 和 DeepSeek-R1）的最新进展通过利用监督微调 (SFT) 和强化学习 (RL) 技术来增强思维链 (CoT) 推理，进一步提高了数学和编程等系统 2 推理领域的性能。然而，虽然较长的 CoT 推

原创 2025-03-27 00:15:00 · 1353 阅读 · 0 评论
LLM 后训练：深入探究大语言模型的推理（下）

25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域，并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础，但研究界现在越来越多地将重点转向后训练技术，以实现进一步的突破。虽然预训练提供广泛的语言基础，但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性，并更有效地

原创 2025-03-24 00:15:00 · 1172 阅读 · 0 评论
LLM 后训练：深入探究大语言模型的推理（上）

25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域，并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础，但研究界现在越来越多地将重点转向后训练技术，以实现进一步的突破。虽然预训练提供广泛的语言基础，但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性，并更有效地与

原创 2025-03-24 00:15:00 · 1072 阅读 · 0 评论
统一的视频动作模型

25年3月来自斯坦福大学的论文“Unified Video Action Model”。统一的视频和动作模型对机器人技术具有重大意义，其中视频为动作预测提供丰富的场景信息，而动作为视频预测提供动态信息。然而，有效地结合视频生成和动作预测仍然具有挑战性，当前基于视频生成的方法在动作准确性和推理速度方面难以与直接策略学习的性能相匹配。为了弥补这一差距，引入统一的视频动作模型（UVA），它联合优化视频和动作预测以实现高精度和高效的动作推理。关键在于学习联合视频动作潜表示和解耦视频动作解码。联合潜表示，连接视觉和

原创 2025-03-23 00:15:00 · 1738 阅读 · 0 评论
大语言模型的长思维链推理：综述（下）

25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展，已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性，这可以增强推理能力并解决复杂的问题。然而，尽管取得了这些进展

原创 2025-03-21 00:15:00 · 1295 阅读 · 0 评论
大语言模型的长思维链推理：综述（上）

25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展，已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性，这可以增强推理能力并解决复杂的问题。然而，尽管取得了这些进展

原创 2025-03-21 00:15:00 · 2198 阅读 · 0 评论
Gemma 3 技术报告

Gemma 3，是 Gemma 系列轻量级开放模型中的多模态成员，其规模从 10 亿到 270 亿个参数不等。此版引入视觉理解能力、更广泛的语言覆盖范围和更长的上下文（至少 128K 个tokens）。还更改模型的架构，减少在长上下文中往往会爆炸的 KV-缓存内存。这是通过增加局部与全局注意层的比例并保持局部注意的跨度较短来实现的。Gemma 3 模型经过蒸馏训练，无论是预训练版还是指令微调版，其性能都优于 Gemma 2。特别是，后训练方法显著提高数学、聊天、指令遵循和多语言能力，使 Gemma3-4B-

原创 2025-03-17 00:15:00 · 1606 阅读 · 0 评论
行为机器人套件：简化日常家庭活动中真实世界的全身操控

25年3月来自斯坦福李飞飞团队的论文“BEHAVIOR ROBOT SUITE: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities”。现实世界的家务任务对移动机械操作机器人提出了重大挑战。对现有机器人基准的分析表明，成功的任务执行取决于三个关键的全身控制能力：双手协调、稳定和精确的导航以及广泛的末端执行器可达性。实现这些能力需要精心的硬件设计，但由此产生的系统复杂性使视觉运动策略学习进一步复

原创 2025-03-16 00:15:00 · 1010 阅读 · 0 评论
TidyBot++：用于机器人学习开源的完整移动机械手

24年12月来自普林斯顿、斯坦福和 dexterity.ai 的论文“TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning”。要充分利用模仿学习在移动机械操作方面的最新进展，需要收集大量人工引导的演示。本文提出一种开源设计，用于设计一种廉价、坚固、灵活的移动机械手，该机械手可支撑任意臂，从而实现各种现实世界的家用移动机械操作任务。至关重要的是，设计使用动力脚轮，使移动基座是完全完整的，能够独立且同时控制所有平面自

原创 2025-03-16 00:15:00 · 655 阅读 · 0 评论
Satori：通过行动-思维-链进行强化学习，通过自回归搜索增强 LLM 推理能力

25年2月来自MIT、新加坡技术和设计大学、哈佛、MIT- IBM实验室和UMass的论文“Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search”。大语言模型 (LLM) 已在不同领域展现出卓越的推理能力。最近的研究表明，增加测试-时间计算可增强 LLM 的推理能力。这通常涉及在外部 LLM 验证者的指导下在推理时进行大量采样，从而形成双-玩家

原创 2025-03-13 00:15:00 · 2049 阅读 · 0 评论
学习现实世界人形机器人的起身策略

25年2月来自UIUC和Simon Fraser U的论文“Learning Getting-Up Policies for Real-World Humanoid Robots”。跌倒的自动恢复是人形机器人可靠部署的关键先决条件。由于人形机器人跌倒后可能处于各种不同的配置，并且人形机器人需要在具有挑战性的地形上运行，因此手工设计起身控制器非常困难。本文开发一个学习框架来生成控制器，使人形机器人能够从不同地形的不同配置中起身。与以前成功的人形运动学习应用不同，起身任务涉及复杂的接触模式，这需要准确建模碰

原创 2025-03-04 00:15:00 · 1687 阅读 · 0 评论
大语言模型中的逻辑推理：综述

25年2月来自西湖大学、浙江师范大学和海南大学的论文“Logical Reasoning in Large Language Models: A Survey”。随着 OpenAI o3 和 DeepSeek-R1 等高级推理模型的出现，大语言模型 (LLM) 已展示出卓越的推理能力。然而，它们进行严格逻辑推理的能力仍是一个悬而未决的问题。本综述综合人工智能研究的关键领域 LLM 中逻辑推理的最新进展。它概述 LLM 中逻辑推理的范围、其理论基础以及用于评估推理能力的基准。分析不同推理范式（演绎、归纳、溯

原创 2025-03-03 00:15:00 · 1598 阅读 · 0 评论
从系统 1 到系统 2：大语言模型推理的综述

25年2月来自阿联酋 MBZUAI、中科院自动化所、香港城市大学、香港科技大学广州分校、英国格拉斯哥的 Strathclyde 大学、小红书、华东师范大学和南方科技大学的论文“From System 1 to System 2: A Survey of Reasoning Large Language Models”。要实现人类水平的智能，需要改进从快速、直观、系统 1 到较慢、更慎重、系统 2 推理的过渡。虽然系统 1 擅长快速、启发式决策，但系统 2 依靠逻辑推理来做出更准确的判断并减少偏见。基础大

原创 2025-03-02 00:15:00 · 1223 阅读 · 0 评论
LeapVAD：通过认知感知和 Dual-Process 思维实现自动驾驶的飞跃

25年1月来自浙江大学、上海AI实验室、慕尼黑工大、同济大学和中科大的论文“LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking”。尽管自动驾驶技术取得长足进步，但由于推理能力有限，数据驱动方法仍然难以应对复杂场景。与此同时，随着视觉语言模型的普及，知识驱动的自动驾驶系统也得到了长足发展。本文提出一种基于认知感知和 Dual-Process 思维的新方法 LeapVAD。该方法实现

原创 2025-03-01 00:15:00 · 1379 阅读 · 0 评论
FASIONAD：自适应反馈的类人自动驾驶中快速和慢速思维融合系统

24年11月来自清华、早稻田大学、明尼苏达大学、多伦多大学、厦门大学马来西亚分校、电子科大（成都）、智平方科技和河南润泰数字科技的论文“FASIONAD : FAst and Slow FusION Thinking Systems for Human-Like Autonomous Driving with Adaptive Feedback”。确保安全、舒适和高效的导航是自动驾驶系统开发和可靠性的基础。虽然在大型数据集上训练的端到端模型在标准驾驶情况下表现良好，但它们往往难以应对罕见的长尾事件。大语

原创 2025-03-01 00:15:00 · 1075 阅读 · 0 评论
MOBA：长上下文 LLMs 的混合块注意机制

25年2月来自月之暗面、清华和浙大的论文“MOBA: Mixture Of Block Attention For Long-context LLMs”。扩展有效上下文长度对于将大语言模型 (LLM) 推进到通用人工智能 (AGI) 至关重要。然而，传统注意机制固有的计算复杂度的二次增加，带来高昂的开销。现有的方法要么施加强偏结构，例如特定任务的汇聚（sink）注意或窗注意，要么将注意机制彻底修改为线性近似，其在复杂推理任务中的表现仍未得到充分探索。

原创 2025-02-28 00:15:00 · 1221 阅读 · 0 评论
HOMIE：具有同构外骨骼座舱的人形机器人操控

25年2月来自上海AI实验室和香港中文大学的论文“HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit”。目前的人形遥操作系统要么缺乏可靠的低级控制策略，要么难以获取准确的全身控制命令，这使得遥操作人形机器人执行操控任务变得非常困难。为了解决这些问题，HOMIE，一种人形遥操作驾驶舱，它集成人形操控策略和低成本外骨骼硬件系统。该策略使人形机器人能够行走和下蹲到特定的高度，同时适应任意的上身姿势。这是通过基于强化学习的训

原创 2025-02-26 00:15:00 · 1522 阅读 · 0 评论
面向机器人操作的协同、泛化和高效的双-系统

24年10月来自上海交大、香港大学、智元机器人和上海 AI 实验室的论文“Towards Synergistic, Generalized And Efficient Dual-system For Robotic Manipulation ”。随着多功能机器人系统在多样化和动态环境中运行的需求日益增长，这凸显一个通才策略的重要性，其利用大量跨具身数据语料库来促进广泛的适应性和高级推理。然而，通才策略会面临推理效率低下和训练成本高昂的问题。相反，专家策略是针对特定领域数据制定的，在任务级精度和效率方面表

原创 2025-02-25 00:15:00 · 1419 阅读 · 0 评论
具有快慢思考的语言调节机器人操作

24年1月来自华东师范大学、美的集团和上海大学的论文“Language-Conditioned Robotic Manipulation with Fast and Slow Thinking”。语言调节机器人操作，旨在将自然语言指令转化为可执行动作，从简单的“拾取和放置”到需要意图识别和视觉推理的任务。受认知科学中的 Dual Process 理论的启发——该理论表明人类决策中存在两个平行的快速和慢速思考系统——引入快速和慢速思考机器人 (RFST)，这是一个模仿人类认知架构的框架，用于对任务进行分类并

原创 2025-02-25 00:15:00 · 2039 阅读 · 0 评论
LAMS：LLM 驱动自动模式切换辅助遥操作

25年2月来自 CMU 和匹兹堡大学的论文“LAMS: LLM-Driven Automatic Mode Switching for Assistive Teleoperation”。通过低自由度控制器（如操纵杆）遥操作高自由度 (DoF) 机器人操纵器，通常需要在控制模式之间频繁切换，其中每种模式将控制器运动映射到特定的机器人动作。手动执行这种频繁切换会使遥操作变得繁琐且效率低下。另一方面，现有的自动模式切换解决方案（例如基于启发式或基于学习的方法）通常是针对特定任务的，缺乏通用性。本文介绍 LLM

原创 2025-02-24 00:15:00 · 893 阅读 · 0 评论
DeepSeek 提出原生稀疏注意：硬件对齐且原生可训练的稀疏注意

25年2月来自 DeepSeek-AI、北京大学和西雅图华盛顿大学的论文“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”。长上下文建模对于下一代语言模型至关重要，但标准注意机制的高计算成本带来巨大的计算挑战。稀疏注意为提高效率同时保持模型能力提供一个有希望的方向。NSA，一种原生可训练的稀疏注意机制，它将算法创新与硬件对齐的优化相结合，以实现高效的长上下文建模。NSA 采用动态分层稀疏策

原创 2025-02-23 00:15:00 · 1026 阅读 · 0 评论
DexterityGEN：前所未有灵活度的基础控制器

25年2月来自伯克利 BAIR 和 Meta FAIR 的论文“DexterityGEN: Foundation Controller for Unprecedented Dexterity”。教授机器人灵巧的操作技能（例如使用工具）是一项艰巨的挑战。当前的方法大致可分为两种策略：人类遥控（用于模仿学习）和模拟-到-现实的强化学习。第一种方法很难，因为人类很难在没有触觉反馈的情况下在不同实施例上做出安全灵巧的动作。第二种基于 RL 的方法则难以解决域差距问题，并且涉及对复杂任务进行高度任务特定的奖励工程。

原创 2025-02-22 00:15:00 · 831 阅读 · 0 评论
高级推理的多样化推理与验证

25年2月来自波士顿大学、NotBadMath.AI、谷歌、哥伦比亚大学、MIT、Intuit公司和斯坦福大学的论文“Diverse Inference and Verification for Advanced Reasoning”。OpenAI o1、o3 和 DeepSeek R1 等推理 LLM 在数学和编码方面取得重大进展，但仍发现 IMO 组合问题、ARC 谜题和 HLE 问题等高级任务具有挑战性。本文用多样化的推理方法，在测试时结合多种模型和方法。数学和代码问题以及对其他问题拒绝抽样的验证，

原创 2025-02-22 00:15:00 · 1016 阅读 · 0 评论

人工智能

作者: 三谷秋水

TTRL：测试-时间强化学习

RM-R1：奖励建模为推理

快速方法：Speedy MASt3R

MASt3R-SLAM：具有 3D 重建先验的实时密集 SLAM

ROBOVERSE：面向可扩展和可泛化机器人学习的统一平台、数据集和基准

开源大模型新标杆！Moxin-7B：从预训练到强化学习，全面透明的AI革新

LLM 对齐技术综述：RLHF、RLAIF、PPO 和 DPO 等

高效 Transformer 的综述

通过面向目标的奖励弥合人与机器人的灵活性差距

PROGRESSOR：具有自监督在线细化的感知引导奖励估计器

ORCA：一款开源、可靠、成本高效、拟人化的机械手，可实现不间断灵巧任务学习

具身推理器：协同视觉搜索、推理和行动，实现具身交互任务

AhaRobot：一个用于具身人工智能的低成本开源双手移动机械手

系统 0/1/2/3：多时间尺度具身集体认知系统的四元-过程理论

COMPASS：通过残差强化学习和技能合成实现跨具身移动策略

DexGrasp Anything：具有物理-觉察的普遍机器人灵巧抓取

停止过度思考：大语言模型的有效推理综述（下）

停止过度思考：大语言模型的有效推理综述（上）

LLM 后训练：深入探究大语言模型的推理（下）

LLM 后训练：深入探究大语言模型的推理（上）

统一的视频动作模型

大语言模型的长思维链推理：综述（下）

大语言模型的长思维链推理：综述（上）

Gemma 3 技术报告

行为机器人套件：简化日常家庭活动中真实世界的全身操控

TidyBot++：用于机器人学习开源的完整移动机械手

Satori：通过行动-思维-链进行强化学习，通过自回归搜索增强 LLM 推理能力

学习现实世界人形机器人的起身策略

大语言模型中的逻辑推理：综述

从系统 1 到系统 2：大语言模型推理的综述

LeapVAD：通过认知感知和 Dual-Process 思维实现自动驾驶的飞跃

FASIONAD：自适应反馈的类人自动驾驶中快速和慢速思维融合系统

MOBA：长上下文 LLMs 的混合块注意机制

HOMIE：具有同构外骨骼座舱的人形机器人操控

面向机器人操作的协同、泛化和高效的双-系统

具有快慢思考的语言调节机器人操作

LAMS：LLM 驱动自动模式切换辅助遥操作

DeepSeek 提出原生稀疏注意：硬件对齐且原生可训练的稀疏注意

DexterityGEN：前所未有灵活度的基础控制器

高级推理的多样化推理与验证