具身智能是人工智能走向AGI的基石

发表在ICL‘24来自华为法国诺亚实验室和伦敦研发中心的论文“A Call for Embodied AI”。

在这里插入图片描述
和当今人工智能的进步(尤其是大语言模型)相比,具身人工智能 (E-AI) 是追求通用人工智能 (AGI) 的下一个基本步骤,本文遍历具身概念在不同领域(哲学、心理学、神经科学和机器人技术)的演变,强调 E-AI 如何区别于传统的静态学习范式。通过扩大 E-AI 的范围,引入一个基于认知架构的理论框架,强调感知、动作、记忆和学习是具身智体的基本组成部分。该框架与 Friston 的主动推理原则相一致,为 E-AI 开发提供了一种全面的方法。尽管人工智能领域取得了进展,但仍存在重大挑战,例如制定新人工智能学习理论和先进硬件的创新。
推动人工智能研究向前发展的目标,是创造与人类能力相当甚至超越人类能力的智能。这种对超人智能的追求通常被称为通用人工智能 (AGI),不同学科的专家对此有不同的看法,但它广义上是指系统理解、学习和在各种任务和情境中应用知识的能力,反映了人类和动物的认知灵活性。

过去十年,人工智能的显著进步主要归功于三个关键发展:i) 深度学习算法的进步,ii) 强大的新硬件出现,以及 iii) 大量可用于训练的数据集。大语言模型 (LLM) 的创建是这一进步的一个主要例证,例如 OpenAI 的 GPT-4(Achiam,2023)和 Google 的 Gemini(Team,2023)。这些 LLM 的惊人能力引发了人工智能社区的讨论,一些人在思考这些模型是否已经实现了 AGI 的初级形式。基础模型(在海量数据集上训练的具有数十亿个参数的大型网络)已在各个领域取得了成功,从预测 3D 蛋白质结构(Cramer,2021)和机器人控制(Brohan,2023),到生成图像和音频(Ramesh,2022;Radford,2022)。这种广泛的成就支持了以下假设:继续扩展和完善基础模型可能是实现 AGI 的可行途径。

具身AI是人工智能的一个子领域,专注于与物理环境互动的智体,强调感觉运动耦合和情境智能。与单纯的被动观察相反,具身AI智体会根据环境采取行动并从反应中学习。具身人工智能深深植根于具身认知(Shapiro,2011;McNearney,2011),这是哲学和认知科学的一个观点,它假定心灵和身体之间存在着深刻的耦合。这一思想于 20 世纪初出现,挑战了笛卡尔二元论——一种历史上占主导地位的观点,它将心灵与身体截然分开(Descartes,2012)。(Lakoff & Johnson 1979;1999)等先驱者对这一范式做出了重大贡献,他们提出,理性不是基于抽象的法则,而是基于身体体验。具身认知是 4E 认知科学框架 (Varela ,1991;Clark,1997;Clark & Chalmers,1998) 的重要组成部分,涵盖了认知的具身、行为、嵌入和扩展方面。在 E-AI 中,重点主要放在实现“具身”和“行为”方面,而“嵌入”和“扩展”部分则更适用于将 AI 置于社会背景中,并将其作为人类 (个人或集体) 认知的增强。

在 AI 中,对具身的初步探索出现在 20 世纪 80 年代,其推动力是人们越来越多地认识到非具身智体的固有局限性。这些限制主要归因于缺乏与环境的丰富、高带宽的交互(Pfeifer & Lida,2004;Pfeifer & Bongard,2006)。这种范式转变的早期倡导者是 (Brooks 1991),他制造了模拟昆虫运动的步行机器人。与此同时,计算机视觉领域也在经历自身的变革。研究人员和从业者越来越关注如何让智体与周围环境互动。这种对互动的重视导致人们将注意集中在具身化的感知元素上,尤其是从第一人称视角(POV)来看(Shapiro,2021)。这种方法与视觉探索和导航的概念相一致(Ramakrishnan,2021),其中智体通过运动和感官知觉获取有关 3D 环境的信息,从而不断完善其环境模型(Anderson,2018;Chen,2019)。这种探索技术使智体能够发现物体并了解它们的持久性。由于这些发展,E-AI 中的许多当代基准主要来自视觉和机器人领域(Duan,2022),反映了这些学科在推动该领域发展方面发挥的不可或缺作用。

话虽如此,E-AI 的更广泛定义不需要视觉。感觉运动的耦合可以使用任何物理感觉来实现(Pfeifer & Bongard,2006 年)。在生物世界中,许多生物体无需视觉即可生存和繁衍,例如使用化学或电感应 (Bargmann, 2006)。“无处不在的思维技术方法” (TAME) (Levin 2022) 框架进一步探索了这一想法,认为认知源自细胞群的集体智慧,它们本身深深体现在它们的环境(所组成的身体)中。该框架挑战传统的笛卡尔二元论,将认知嵌入生物体的物理和生物构成中。从 TAME 的角度来看,认知不仅仅是高阶生物体的一个属性;它延伸到整个生物体的本体层次,从单个细胞到组织和器官,再到复杂的生物体。每个智体都展示了与其物理结构和适当级别的环境相互作用固有相关的认知能力。这种对认知和体现的广泛看法超越了机器人和计算机视觉中对视觉的传统关注。它假定任何能够感知、与环境互动并从中学习,从而适应和影响环境的实体都符合具身化的标准。这一概念的一个技术实例是电信网络中的智能路由器。该设备“生活”在一个由电磁感应主导的领域。它不断地从网络流量中学习和适应,有效地映射和管理信息流。这个例子强调将 E-AI 原则应用于传统领域之外的潜力,从而对智能和具身化有更包容和多样化的理解。

E-AI 概念的这种扩展提出了一个问题:当前的商业 AI 工具距离具身化有多近?分析两个这样的工具:大语言模型(Brown,2020;Devlin,2019)和社交媒体内容 AI 推荐系统 (SMAI)(Bakshy,2015;Covington,2016;Eirinaki,2018)。

LLM 在语言符号领域内运行,表示文本信息并通过完成提示生成新文本。它们的基础训练本质上是静态的,依赖于由 AI 工程师团队精心编制和策划的数据集。它们的目标是有监督的:根据上下文生成可能的tokens。它们的二次训练(微调)可能涉及与符号环境(人类用户)的交互和要达到的目标(满足人类用户),但由于技术(例如灾难性遗忘(Kirkpatrick,2017;Parisi,2019))和商业(例如管理个性化 LLM(Strubell,2019;Kaplan,2020))原因,这些交互存在一些限制。展望未来,预计进步可能会解决这些限制,并可能导致“个人助理”LLM的出现。这些将代表符号领域内的一种具身智体形式。然而,目前,LLM在很大程度上类似于静态互联网人工智能 (I-AI) (Duan,2022),与 E-AI 的动态、交互性质有显著不同。

有趣的是,尽管最近的研究 (Bender,2021) 强调人们对LLM的风险和协调挑战的担忧日益增加,但 SMAI 受到的审查相对较少 (Husza ́r,2022;Ribeiro,2020)。考虑到 SMAI 已经存在了很长时间,并且它们对社会的影响更广泛、更深远,这一点值得注意。我们认为,与 LLM 相比,SMAI 之所以被广泛接受,并且在我们的生活中更加一体化、更少干扰,是因为它们更符合具身化原则。

SMAI 更接近具身化的原因如下。首先,SMAI 由明确的目标驱动:吸引人们的注意并最大限度地提高人们与各自平台的互动(Bozdag,2013;Bodo ́,2021)。这些目标从根本上与这些平台的商业模式相关,这些模式围绕广告展开。这些“参与”目标的具体内容通常是专有的,构成了这些平台竞争优势的核心。尽管这些目标最初是人为设计的,而不是内在产生的(Covington,2016),但它们受到进化压力和适应的影响,因此与 SMAI 的存在和生存息息相关。其次,SMAI 几乎完全从互动时收集的数据中学习。这导致了高度的个性化(适应个人偏好(Nguyen,2014))和探索的观念(提供给人内容不是为了满足人,而是为了了解人喜欢什么)。这创造了一种用户体验,如果执行得当,就像与一个体贴的朋友互动一样,希望对方做到最好,将人与所喜欢的事物联系起来,并希望更好地了解人。然而,另一方面,这些系统可能会演变成延续上瘾行为或有害内容的机制(Schull,2012)。然而,由于 SMAI 比 LLM 更直观、更深入地与人连接和适应,常常对这些系统的交互有更大的控制感(例如,有意识地不点击那些知道长远来看不想看到的内容)。这种控制虽然有限,但更像是说服而非机械操纵,与其他有感知的生物而非机器的互动方式相一致。这种与人工智能系统的关系,是 TAME 提案(Levin 2022)的一个基本方面。对 E-AI 的立场表明,虽然类似于 SMAI 的系统由于无缝融入社会结构而带来更大的风险,但它们也提供了更自然的机会来与价值观保持一致。这种协调过程本质上是程序性的、透视性的和进化性的(Vervaeke,2012;Vervaeke & Coyne,2024),与应用于 LLM 的主要命题方法(Shen,2023)形成鲜明对比。

更有效、更自然协调的人工智能系统的潜力本身,就是在更广泛的人工智能研究议程中优先考虑 E-AI 的理由。

E-AI 系统的四个基本组成部分:(i)感知:智体感知其环境的能力;(ii)行动:与环境互动和改变环境的能力;(iii)记忆:保留过去经验的能力;(iv)学习:整合经验以形成新知识和新能力。这些组成部分与 (Friston 2010) 的主动推理框架非常吻合。在此框架中,智体通过概率生成模型来建模其世界,该模型可以推断其感官观察(感知)的原因。

该模型是分层的,以自上而下的方式预测未来状态,并将这些预测与自下而上的传感数据进行协调,只有当差异或错误无法在初始级别进行协调时,差异或错误才会向上升级。智体采取行动以尽量减少其预期与现实之间的差异,从而朝着减少不确定性的状态发展(行动)。同时,它收集和存储有关其环境的新信息(记忆),并改进其内部模型以尽量减少预测错误(学习)。

具身智体的核心在于感知其所处世界的能力。感知是将原始感官数据转换为结构化内部表征的过程,使智体能够执行认知任务。感知的输入范围非常广泛,涵盖了人类熟悉的感官,例如视觉、听觉、嗅觉、触觉和味觉。它扩展到智体可能遇到的任何形式的刺激,无论是机器人中的力传感器还是无线技术中的信号强度指示器。感官数据的挑战在于它通常不能立即采取行动。它通常会经历一个转换过程,在这一任务中,机器学习的最新进展可以证明是无价的。该领域已经开发出用于学习特征和嵌入空间的复杂方法,从而促进了原始数据转化为有意义的信息(Golinko & Zhu,2019;Sivaraman,2022)。一种特别有效的策略是自我监督学习来学习此类表征。尽管大部分研究都集中在单一模态上,例如视觉(Oquab,2023),但这些技术背后的原理普遍适用于不同的感官输入(Orhan,2022;Lee,2019)。

具身智体通过采取行动和观测结果来探索世界。行动可以分为两个步骤:(i)选择下一步要采取的行动,例如决定搬迁到特定地点,以及(ii)确定如何执行此行动,例如绘制前往该位置的路线。行动可以进一步分为反应性行动和目标导向型行动。反应性行动类似于人类的反射,在刺激反应中几乎立即发生,并通过保持稳定性在智体的即时自我保护中发挥关键作用。另一方面,目标导向型行动涉及战略规划,并受到高层目标的激励。反应性行动对于自我保护很重要,无模型强化学习方法在机器人行走等任务中开发反应性控制策略方面发挥着重要作用(Rudin,2022)。另一方面,对于智体来说,规划是必不可少的,即使高效规划仍然是一个开放的研究领域(Lin,2022;Shi,2022)。规划概念的核心是智体内部存在一个“世界模型”,它可以使用该模型来预测自身行为的后果。基于模型的强化学习在开发学习这些世界模型并将其用于规划的算法方面取得了重大进展(Silver,2016;Ke ́gl ,2021;Paolo,2022)。

具身智体从存储在记忆中的经验中学习。记忆包含多个维度,包括持续时间(短期或长期)和性质(程序性、声明性、语义性和情景性)。重要的是,记忆不一定表示为显式命题知识;它可以隐式编码到神经网络 (NN) 的权重中。为了完成认知任务,智体需要不同类型的记忆系统,每种系统都发挥着不同的作用。工作记忆和短期记忆提供临时存储以支持智体的即时目标。长期记忆和情景记忆为较长时间的信息提供了储存库。情景记忆捕捉并存储独特的、视角性的经验,在熟悉的情景展开时可供访问。相反,长期记忆是更广泛的命题知识的储存库。例如,LLM 使用RAG (Gao,2024) 实现长期记忆,这是一种使用外部数据库减少幻觉的技术。该技术展示了复杂的机器学习方法如何与认知架构协同作用。

智能智体的一个决定性特征是其学习能力。然而,如何学习,尤其是以连续和动态的方式学习,仍然是一个持续研究和辩论的主题(Wang,2023a;Yifan,2023)。虽然人工智能最近的进步主要由静态数据集上的训练推动,但持续学习的概念面临着挑战,而持续学习对于随着时间的推移而适应至关重要。这些挑战主要源于深度神经网络的固有局限性,例如灾难性遗忘(Kemker,2018),以及从智体与其环境交互产生的非平稳数据中学习的复杂性(Fahrbach,2023)。具身假设表明,真正的智能诞生于这种互动(Smith & Gasser,2005),强调了动态学习方法的必要性。在此背景下,模拟器成为一种重要工具,它摆脱了传统人工智能典型的静态学习。相反,它们使智体能够通过模拟环境中的持续、交互式体验进行进化(Duan,2022)。

为什么具身?(略)
挑战(略)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值