大模型
文章平均质量分 85
硅谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
SayPlan:使用 3D 场景图为可扩展的机器人任务规划落地大语言模型
23年7月来自澳洲昆士兰科技大学和阿德莱德大学的论文“SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning”。原创 2024-10-03 00:07:21 · 868 阅读 · 0 评论 -
DoReMi:通过规划-执行不一致的检测和恢复去落地语言模型
23年9月来自清华和上海姚期智研究院的论文“DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment”。原创 2024-10-02 00:28:06 · 736 阅读 · 0 评论 -
PROGPROMPT:使用大语言模型生成情境机器人任务规划
22年9月来自 USC 和 Nvidia 的论文 “PROGPROMPT: Generating Situated Robot Task Plans using Large Language Models”。原创 2024-10-02 00:27:21 · 735 阅读 · 0 评论 -
STORM:为强化学习基于高效随机Transformer的世界模型
23年10月来自北理工和清华的论文“STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning”。原创 2024-10-01 00:36:07 · 822 阅读 · 0 评论 -
EUREKA:通过编码大语言模型实现人类级别的奖励设计
24年4月来自Nvidia、UPenn、Caltech 和 UT Austin 的论文“EUREKA: Human-Level Reward Design Via Coding Large Language Models”。原创 2024-10-01 00:35:12 · 1084 阅读 · 0 评论 -
RoboFlamingo:视觉-语言基础模型作为有效的机器人模拟器
24年2月来自字节、清华、上海交大和新加坡国立大学的论文“Vision-language foundation models as effective robot imitators”。原创 2024-09-30 01:36:11 · 1108 阅读 · 1 评论 -
RoboDreamer:学习机器人想象力的组合世界模型
24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。原创 2024-09-25 03:35:47 · 836 阅读 · 0 评论 -
代码即策略:具身控制的语言模型程序
23年5月来自谷歌的论文“Code as Policies: Language Model Programs for Embodied Control”。原创 2024-09-23 00:23:57 · 878 阅读 · 0 评论 -
Inner Monologue:通过语言模型规划进行具身推理
22年7月来自谷歌的论文“Inner Monologue: Embodied Reasoning through Planning with Language Models”。原创 2024-09-23 00:21:29 · 965 阅读 · 0 评论 -
LLM-Planner:针对大语言模型具身智体的少样本落地规划
23年3月来自Ohio State U的论文“LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models”。原创 2024-09-22 00:10:23 · 569 阅读 · 0 评论 -
三思而后行:ViLa 揭示GPT-4V 在机器人视觉-语言规划中的强大功能
23年11月来自清华、上海AI实验室和上海姚期智研究院的论文“Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning”。原创 2024-09-22 00:09:02 · 508 阅读 · 0 评论 -
SpatialVLM:赋予视觉-语言模型空间推理能力
24年1月来自谷歌的论文“SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities”。原创 2024-09-22 00:06:55 · 642 阅读 · 0 评论 -
Socratic Planner: 用于具身指令跟随的基于查询零样本规划方法
24年4月来自韩国首尔大学的论文“Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following”。原创 2024-09-21 00:12:41 · 1018 阅读 · 0 评论 -
视频作为现实世界决策的新语言
24年2月来自谷歌和伯克利分校的论文“Video as the New Language for Real-World Decision Making”。原创 2024-09-19 00:26:52 · 1165 阅读 · 0 评论 -
EmbodiedGPT:通过具身的思维链进行视觉-语言预训练
23年9月来自香港大学、上海AI实验室和华为诺亚实验室的论文“EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought”。原创 2024-09-18 00:04:01 · 741 阅读 · 0 评论 -
UniPi:通过文本引导的视频生成去学习通用策略
23年11月来自MIT、谷歌、伯克利分校、乔治亚理工和Alberta大学的论文“Learning Universal Policies via Text-Guided Video Generation”。原创 2024-09-18 00:03:05 · 792 阅读 · 0 评论 -
多模态大语言模型落地于动作
24年6月来自苹果公司、乔治亚理工和加拿大Mila AI的论文“Grounding Multimodal Large Language Models in Actions”。原创 2024-09-16 10:04:02 · 946 阅读 · 0 评论 -
RT-H:使用语言的动作分层
24年6月来自谷歌和斯坦福的论文“RT-H: Action Hierarchies Using Language”。原创 2024-09-16 00:33:33 · 888 阅读 · 0 评论 -
Robot Utility Models:在新环境零样本部署的通用策略
24年9月来自纽约大学、HelloRobot和Meta的论文“Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments”。原创 2024-09-16 00:30:12 · 801 阅读 · 0 评论 -
强化优势反馈(ReAd):实现具身多智体协作的高效LLM落地
24年6月来自清华、上海AI实验室、西工大、浙大和中国电讯的论文“Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration”。原创 2024-09-16 00:28:29 · 1104 阅读 · 0 评论 -
RoboCat:一个自我完善机器人操控的通才智体
23年12月来自谷歌的论文“RoboCat: a self-improving generalist agent for robotic manipulation”。原创 2024-09-15 00:08:03 · 881 阅读 · 0 评论 -
SayCan:将语言落地于机器人Affordance
22年8月来自谷歌和Everday Robots的论文“Do As I Can, Not As I Say: Grounding Language in Robotic Affordances”。原创 2024-09-15 00:02:04 · 647 阅读 · 0 评论 -
3D-VLA:3D 视觉-语言-动作生成世界模型
24年3月来自麻省大学、上海交通大学、华南理工大学、武汉大学、 麻省理工、加州洛杉矶分校和MIT-IBM Watson AI 实验室的论文“3D-VLA: A 3D Vision-Language-Action Generative World Model”。原创 2024-09-13 00:36:49 · 1003 阅读 · 0 评论 -
视频语言规划
23年10月来自谷歌、MIT和伯克利分校的论文“video language planning”。原创 2024-09-13 00:35:41 · 551 阅读 · 0 评论 -
RoboMamba:用于高效机器人推理和操作的多模态状态空间模型
24年6月的论文“RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation”。原创 2024-09-12 00:08:31 · 1120 阅读 · 0 评论 -
以目标为中心机器人操作的具身学习综述
24年8月来自香港理工大学、清华和香港中文大学的论文“A Survey of Embodied Learning for Object-Centric Robotic Manipulation”。原创 2024-09-11 02:34:11 · 937 阅读 · 0 评论 -
大语言模型辅助 AI 规划的最新进展
24年9月来自Emory大学的论文“Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning”。原创 2024-09-11 02:16:49 · 885 阅读 · 0 评论 -
DriveGenVLM:基于视觉-语言模型的自动驾驶真实世界视频生成
24年8月来自哥伦比亚大学的论文“DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving”。原创 2024-09-10 00:05:18 · 1002 阅读 · 0 评论 -
ALANAVLM:一种用于自我中心视频理解的多模态具身智能基础模型
24年6月来自 Alana AI 的论文“ALANAVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding”。原创 2024-09-07 00:16:04 · 826 阅读 · 0 评论 -
HENASY:学习组装场景-实体,实现可解释自我中心视频-语言模式
24年6月来自阿肯色州立大学的论文“HENASY: Learning to Assemble Scene-Entities for Interpretable Egocentric Video-Language Mode”。原创 2024-09-05 00:05:29 · 750 阅读 · 0 评论 -
扩大规模并蒸馏内容:语言引导的机器人技能获取
23年10月来自哥伦比亚大学和谷歌的论文“Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition”,发表于CoRL‘23。原创 2024-09-05 00:04:00 · 705 阅读 · 0 评论 -
Octo:一个开源通才机器人策略
24年5月来自UC Berkeley、Stanford、CMU和Deepmind的论文“Octo: An Open-Source Generalist Robot Policy”。原创 2024-09-02 00:11:44 · 853 阅读 · 0 评论 -
OpenVLA:一个开源的视觉-语言-动作模型
24年6月来自 Stanford、UC Berkeley、TRI、Deepmind 和 MIT的论文“OpenVLA: An Open-Source Vision-Language-Action Model”。原创 2024-09-02 00:10:14 · 894 阅读 · 0 评论 -
COM Kitchens:未经编辑的俯视视频数据集作为视觉-语言基准
24年8月来自OMRON SINIC X公司等几家日本研究机构的论文“COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark”。原创 2024-08-28 00:07:32 · 547 阅读 · 0 评论 -
LONGWRITER:从长篇上下文 LLM 中释放 10,000 多单词的生成能力
24年8月来自清华和智谱AI公司的论文“LONGWRITER: UNLEASHING 10,000+ WORD GENERATION FROM LONG CONTEXT LLMS”。原创 2024-08-26 00:20:58 · 698 阅读 · 0 评论 -
Agent Q:自主 AI 智体的高级推理和学习
24年8月来自MultiOn AGI公司和斯坦福大学的论文“”Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents“。原创 2024-08-26 00:18:59 · 1093 阅读 · 0 评论 -
消除LLM幻觉,需要重新思考泛化:混合记忆专家(MoME)
24年6月来自AI创业公司Lamini的论文“Banishing LLM Hallucinations Requires Rethinking Generalization”。原创 2024-08-25 00:24:39 · 616 阅读 · 0 评论 -
Phi-3 技术报告:手机本地运行的高性能语言模型
24年5月来自微软的工作 “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone”。原创 2024-08-25 00:23:56 · 694 阅读 · 0 评论 -
KoMA:知识驱动的多智体框架用于大语言模型自动驾驶
24年7月来自北航和JHU的论文“KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models”。原创 2024-08-24 00:09:46 · 594 阅读 · 0 评论 -
一体式机器人:多功能通用具身智体的新标准和统一数据集
24年8月来自鹏城实验室、南方科技大学和中山大学的论文“All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents”。原创 2024-08-23 00:08:55 · 1104 阅读 · 0 评论