人工智能
文章平均质量分 87
硅谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
ThreeDWorld:交互式多模态物理模拟平台
21年12月来自MIT-IBM实验室、MIT、哈佛和斯坦福的论文“ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation”。原创 2024-11-06 02:07:55 · 597 阅读 · 0 评论 -
MimicGen:一种利用人类示范进行可扩展机器人学习的数据生成系统
23年10月来自Nvidia和德州Austin分校的论文“MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations”。原创 2024-11-06 02:06:03 · 361 阅读 · 0 评论 -
DemoStart:演示主导的自动化课程用于多指机器人的模拟-到-现实
24年9月来自谷歌的论文“DemoStart: Demonstration-led auto-curriculum applied to sim-to-real with multi-fingered robots”。原创 2024-11-05 01:24:57 · 642 阅读 · 0 评论 -
Body Transformer:利用机器人具身进行策略学习
24年8月(CoRL‘24录取)来自伯克利分校的论文“Body Transformer: Leveraging Robot Embodiment for Policy Learning”。原创 2024-11-04 02:16:36 · 923 阅读 · 0 评论 -
EmoTalk3D:高保真情感 3D Talking Head的任意视角合成
24年8月来自南京大学、复旦和华为诺亚实验室的论文“EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head”。这是一种合成具有可控情绪 3D talking head 的方法,具有增强的唇部同步和渲染质量。尽管该领域取得了重大进展,但先前的方法仍然存在多视角一致性和缺乏情感表现力的问题。为了解决这些问题,收集包含标定的多视角视频、情感注释和每帧 3D 几何的 EmoTalk3D 数据集。原创 2024-11-03 07:12:54 · 890 阅读 · 0 评论 -
STAG4D:时空锚定的生成式 4D 高斯
24年3月来自南京大学、中科院自动化所和复旦大学的论文“STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians”。预训练扩散模型和 3D 生成的最新进展激发了人们对 4D 内容创作的兴趣。然而,实现具有时空一致性的高保真 4D 生成仍然是一个挑战。STAG4D,将预训练的扩散模型与动态 3D 高斯扩散相结合,实现高保真 4D 生成。从 3D 生成技术中汲取灵感,用多视图扩散模型来初始化锚定在输入视频帧上的多视图图像,其中视频可以是真实世界捕获的,原创 2024-11-03 07:12:36 · 635 阅读 · 0 评论 -
腿部 UMI:以操作为中心的全身控制器使操作策略能够移动
24年7月来自斯坦福/哥伦比亚大学和谷歌的论文“UMI on Legs: Making Manipulation Policies Mobile with Manipulation-Centric Whole-body Controllers”。原创 2024-11-02 00:53:35 · 795 阅读 · 0 评论 -
EquiBot:用于泛化和数据高效学习的 SIM(3)-等变扩散策略
24年7月来自斯坦福的论文“EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning”。原创 2024-11-02 00:53:08 · 696 阅读 · 0 评论 -
可重打光的 3D 高斯:BRDF 分解和光线追踪的逼真点云重打光技术
24年8月来自南京大学、复旦大学和华为诺亚实验室的论文“Relightable 3D Gaussians: Realistic Point Cloud Relighting with BRDF Decomposition and Ray Tracing”。本文提出一种可微分点渲染框架来实现照片级真实感的重打光方法。为了使重建的场景可重打光,关联额外属性(包括法线向量、BRDF 参数和来自各个方向的入射光)来增强原始 3D 高斯。原创 2024-10-31 05:57:55 · 1082 阅读 · 0 评论 -
GaussianPro:具有渐进传播的 3D Gaussian Splatting
24年2月来自中科大、香港大学、南京大学、澳大利亚 Adelaide 大学、上海科技大学和德州农机大学的论文“GaussianPro: 3D Gaussian Splatting with Progressive Propagation”。3D Gaussian Splatting (3DGS) 的出现最近带来了神经渲染领域的一场革命,有助于实时实现高质量的渲染。然而,3DGS 严重依赖于由运动结构 (SfM) 技术生成的初始化点云。原创 2024-10-31 05:57:34 · 955 阅读 · 0 评论 -
AutoRT:机器人智体大规模编排的具身基础模型
24年1月来自谷歌DeepMind的论文“AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents”。原创 2024-10-29 00:09:53 · 553 阅读 · 0 评论 -
SARA-RT:利用自适应鲁棒注意机制扩展机器人 Transformer
23年112月来自谷歌的论文“SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention”。原创 2024-10-29 00:09:27 · 832 阅读 · 0 评论 -
EPIC-KITCHENS 数据集
20年4月来自英国Bristol大学、加拿大多伦多大学、意大利Catania和Nvidia的论文“The EPIC-KITCHENS Dataset: Collection, Challenges and Baselines”。原创 2024-10-28 07:34:45 · 693 阅读 · 0 评论 -
RoboGPT:用于执行指令跟随任务的基于 LLM 具身长期决策智体
24年9月来自中科院自动化所和北大的论文“RoboGPT: an LLM-based Embodied Long-term Decision Making agent for Instruction Following Tasks”。原创 2024-10-27 01:43:13 · 910 阅读 · 0 评论 -
用于策略学习的任意点轨迹建模
24年1月来自伯克利分校、清华、斯坦福、上海AI实验室、上海姚期智研究院和香港中文大学的论文“”Any-point Trajectory Modeling for Policy Learning“。原创 2024-10-27 01:41:43 · 796 阅读 · 0 评论 -
RT-Trajectory:通过事后轨迹草图实现机器人任务泛化
23年11月来自谷歌DeepMind、UCSD、斯坦福和谷歌Intrinsic的论文“RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches”。原创 2024-10-26 02:20:44 · 940 阅读 · 0 评论 -
Qwen2.5-Math 技术报告:通过自我改进实现数学专家模型
24年9月来自阿里的论文“Qwen2.5-Math Technical Report:Toward Mathematical Expert Model Via Self- Improvement ”。原创 2024-10-26 02:19:22 · 946 阅读 · 0 评论 -
Transporter Networks: 机器人操控中重新组织视觉世界
22年1月来自谷歌的论文“Transporter Networks: Rearranging the Visual World for Robotic Manipulation”。原创 2024-10-25 00:47:44 · 716 阅读 · 0 评论 -
CliPort:机器人操控的路径
21年9月来自华盛顿大学和Nvidia的论文“CLIPORT: What and Where Pathways for Robotic Manipulation”。原创 2024-10-25 00:46:49 · 460 阅读 · 0 评论 -
RDT-1B:双手操作机器人的扩散基础模型
24年10月清华大学的论文"RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation"。双手操作在机器人技术中至关重要,但由于协调两个机械臂(导致多模态动作分布)的固有复杂性以及训练数据的稀缺性,开发基础模型极具挑战性。本文提出机器人扩散Transformer(RDT),一种用于双手操作的开创性扩散基础模型。RDT 以扩散模型为基础,有效地表示多模态,以可扩展的Transformer来处理多模态输入的异质性并捕获机器人数据的非线性和高频原创 2024-10-24 17:42:30 · 868 阅读 · 0 评论 -
机器人扩散Transformer的成分
24年10月来自CMU和UC Berkeley的论文“The Ingredients for Robotic Diffusion Transformers”。近年来,机器人专家利用高容量 Transformer 网络架构和生成扩散模型,在解决灵巧机器人硬件上日益普遍的任务方面取得了显著进展。不幸的是,将这两项正交改进结合起来已被证明出奇地困难,因为没有明确且易于理解的流程来做出重要的设计选择。本文确定、研究和改进高容量扩散Transformer策略的关键架构设计决策。原创 2024-10-24 17:42:08 · 481 阅读 · 0 评论 -
Math-Shepherd:无需人工注释,一步步验证并强化 LLM
24年2月来自北京大学、DeepSeek-AI、香港大学、清华大学和俄亥俄州立大学的论文“Math-Shepherd: Verify And Reinforce LLMs Step-by-step Without Human Annotations”。原创 2024-10-22 05:03:21 · 813 阅读 · 0 评论 -
通过一个验证器进行多步骤问题解决:模型-促进的过程监督实证分析
24年2月来自UCSD和谷歌的论文“Multi-Step Problem Solving Through A Verifier: An Empirical Analysis On Model-Induced Process Supervision”。原创 2024-10-22 05:02:29 · 590 阅读 · 0 评论 -
通过自动化的过程监督提高语言模型中的数学推理能力
24年6月来自谷歌DeepMind的论文“Improve Mathematical Reasoning in Language Models by Automated Process Supervision”。原创 2024-10-21 15:53:29 · 1236 阅读 · 0 评论 -
推理规模化定律:LLM 求解问题的计算-最优推理实证分析
24年10月来自清华和CMU的论文“Inference Scaling Laws: An Empirical Analysis Of Compute-optimal Inference For LLM Problem-solving ”。原创 2024-10-21 15:52:53 · 584 阅读 · 0 评论 -
EgoThink:评估视觉语言模型第一人称视角的思维能力
23年11月来自清华大学、多伦多大学和零一万物公司的论文“EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models”。原创 2024-10-21 00:15:48 · 773 阅读 · 0 评论 -
Dualformer:通过随机推理轨迹学习实现可控的快速和慢速思维
24年10月来自 Meta 田博团队的论文“Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces”。原创 2024-10-20 05:40:41 · 808 阅读 · 0 评论 -
超越 A*:通过搜索动态自举法使用 Transformer 进行更好的规划
24年2月来自Meta 田博的团队论文“ Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping”。原创 2024-10-20 05:39:30 · 651 阅读 · 0 评论 -
ManiSkill3:用于通用具身 AI 的 GPU 并行机器人模拟和渲染
24年10月来自UCSD、CMU、HillBot、Dresden工大、清华大学和伦敦皇家学院的论文“ManiSkill3: GPU Parallelized Robotics Simulation and Rendering for Generalizable Embodied AI”。原创 2024-10-18 01:21:38 · 965 阅读 · 0 评论 -
DexCap:可扩展、便携的运动捕捉数据收集系统,用于灵巧操作
24年7月来自斯坦福的论文“DexCap: Scalable and Portable Mocap Data Collection System for Dexterous Manipulation”。原创 2024-10-18 01:21:00 · 712 阅读 · 0 评论 -
手术机器人 Transformer (SRT):针对手术任务的模仿学习
24年7月来自JHU和斯坦福大学的论文“Surgical Robot Transformer (SRT): Imitation Learning for Surgical Tasks”。原创 2024-10-17 05:58:15 · 1024 阅读 · 0 评论 -
探索双手机器人操作中的主动视觉
24年9月来自 UC Berkeley 和 UC Davis 的论文“Active Vision Might Be All You Need: Exploring Active Vision in Bimanual Robotic Manipulation”。原创 2024-10-17 05:57:30 · 1009 阅读 · 0 评论 -
OpenR:一个用于大语言模型高级推理的开源框架
24年10月来自伦敦大学学院、利物浦大学、上海交大、香港科技大学(广州分校)和西湖大学的论文“OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models”。原创 2024-10-16 05:15:52 · 1378 阅读 · 0 评论 -
LLM 的测试-时间计算规模化比模型参数规模化更有效
24年8月来自UC Berkeley和谷歌DeepMind 的论文“Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”。原创 2024-10-16 05:15:19 · 913 阅读 · 0 评论 -
赋能具身操控:用于家务的双手移动机器人操控数据集
24年6月来自京东和北理工的论文“Empowering Embodied Manipulation: A Bimanual-Mobile Robot Manipulation Dataset for Household Tasks”。原创 2024-10-15 03:08:47 · 953 阅读 · 0 评论 -
RVT-2:通过少量演示学习精确操作
24年6月来自Nvidia的论文“RVT-2: Learning Precise Manipulation from Few Demonstrations”。原创 2024-10-14 00:45:12 · 1243 阅读 · 0 评论 -
RVT:用于 3D 目标操控的机器人视图 Transformer
23年6月 Nvidia 的论文“RVT: Robotic View Transformer for 3D Object Manipulation”。原创 2024-10-14 00:41:45 · 929 阅读 · 0 评论 -
在模拟中评估现实世界的机器人操作策略
24年5月来自 UC San Diego, Stanford U, UC Berkeley, Google Deepmind的论文“Evaluating Real-World Robot Manipulation Policies in Simulation”。原创 2024-10-13 02:23:35 · 1002 阅读 · 0 评论 -
RoboCAS:复杂物体排列场景中机器人操作的基准
24年7月来自美团的论文“RoboCAS: A Benchmark for Robotic Manipulation in Complex Object Arrangement Scenarios”。原创 2024-10-13 02:21:16 · 1043 阅读 · 0 评论 -
BiGym:基于演示的移动双手操作基准
24年7月来自伦敦帝国学院的 Dyson 机器人学习实验室论文“BiGym: A Demo-Driven Mobile Bi-Manual Manipulation Benchmark”。原创 2024-10-12 06:19:44 · 857 阅读 · 0 评论