基础智能体的进展与挑战第 12 章【科学发现与智能进化】

第 12 章

科学发现与智能进化

在前面的章节中,我们主要从技术角度讨论了智能体系统的演化,重点是如何开发能够有效执行传统上由人类执行的明确定义任务的系统。然而,一个根本且重要的问题仍然存在:这些智能体能否驱动一个自我维持的创新循环,从而推动智能体进化和人类进步?

科学知识发现是智能生物自我进化的一个引人注目的例子,因为它帮助它们以可持续的方式适应世界。能够在不同自主水平上以安全方式发现科学知识的智能体,也将在人类的技术创新中扮演重要角色。在本节中,我们概述了使用智能体工作流进行自主发现的进展,并讨论了实现完全自主、自我进化智能体的技术准备情况。在此范围内,智能体的目标是揭示、验证和整合数据、见解和原理,以推进对自然现象的客观科学理解。智能体不是改变世界,而是寻求作为科学家 AI [859] 更好地理解自然,并协助人类扩展知识的边界。

我们首先定义知识和智能的概念以厘清我们的讨论,然后介绍智能体与科学知识交互的三种典型场景。我们还重点介绍了应用于理论、计算和实验科学研究的自我增强智能体的现有成功案例和范例。最后,我们总结了当前面临的挑战,并展望了未来。

12.1 用于科学知识发现的智能体智能

知识,传统上定义为得到辩护的真信念(justified true belief),可追溯到柏拉图 [860],并由埃德蒙·盖梯尔 [861] 进一步完善,他认为知识必须由可靠的认知过程产生——尽管其精确定义仍有争议 [862]。在我们的讨论中,我们将科学知识发现描述为收集数据和信息以辩护或证伪关于目标科学问题的理性假设的过程。为了讨论智能体在科学知识发现中的能力,我们首先探索一个通过信息论视角衡量智能体智能的通用框架。

12.1.1 基于 KL 散度的智能度量

智能体的智能可以通过其预测的未知信息概率分布与真实世界概率分布之间的 KL 散度来衡量。人工智能和科学哲学的一个长期目标是形式化智能体“理解”世界的含义。从 Jaynes 将概率论视为不确定性下推理的扩展逻辑 [863],到 Parr 等人根据自由能原理将智能构建为最小化模型-世界散度 [864],许多框架都汇聚在一个共同的主题上:智能行为源于对不确定世界做出准确预测。例如,Clark [344] 认为,智能智能体通过预测和纠错不断与世界互动以减少意外(surprise)。Chollet [865] 强调,由于任务适应的动态性,智能应反映技能获取效率。总而言之,这些观点表明,智能涉及构建预测性和适应性模型——这一思想在此通过概率框架得以形式化,该框架将推理与知识获取联系起来,并能够在科学发现中比较不同智能体。

在此基础上,我们将智能置于科学知识发现的具体背景下考虑,其中智能体的首要目标是从有限数据中推断物理世界的未知方面。从知识发现中智能体的角度来看,世界 W \boldsymbol{\mathcal{W}} W 的特征在于与智能体旨在理解的科学问题相关的数据集集合 x = { x 1 , x 2 , . . . , x n } \mathbf{x}=\{x_{1},x_{2},...,x_{n}\} x={x1,x2,...,xn}。在智能体与 W \mathcal{W} W 的交互过程中,每个数据集以概率 P W ( x ) P_{\mathcal{W}}(\mathbf{x}) PW(x) 出现在实验测量或观测中。这里我们假设单个数据点 x i x_{i} xi 可能相关也可能不相关。例如,在使用语言模型生成文本的任务中, x i x_{i} xi 表示构成有意义命题的一段标记(token),而 x \mathbf{x} x 是由已知和推断的命题构建的连贯文本。在这种情况下,“世界”是所有命题的集合。

θ \theta θ 表示参数化智能体世界模型 M t w m M_{t}^{\mathrm{wm}} Mtwm 的参数,如表 1.2 所定义。例如,在一个具有固定架构的 Transformer 模型中, θ \theta θ 代表其权重。给定 θ \theta θ 和数据集 x \mathbf{x} x,智能体预测一个概率分布 P θ ( x ) P_{\theta}(\mathbf{x}) Pθ(x)。通常,不同的人工智能智能体可能针对不同目标进行优化。对于科学知识发现,我们假设智能体的目标是生成对真实世界的良好描述,即一个能够尽可能准确预测尚未探索的自然现象的世界模型。更智能的智能体能产生对真实世界分布 P W ( x ) P_{\mathcal{W}}(\mathbf{x}) PW(x) 更好的近似。因此,智能体的智能可以通过这两个概率分布之间的 KL 散度(或相对熵)来衡量:

D 0 ( θ ) = ∑ x ⊆ W P W ( x ) log ⁡ P W ( x ) P θ ( x ) D_{0}(\theta)=\sum_{{\bf x}\subseteq\mathcal{W}}P_{\mathcal{W}}({\bf x})\log\frac{P_{\mathcal{W}}({\bf x})}{P_{\theta}({\bf x})} D0(θ)=xWPW(x)logPθ(x)PW(x)

D 0 ( θ ) D_{0}(\theta) D0(θ) 描述了 P W ( x ) P_{\mathcal{W}}(\mathbf{x}) PW(x) P θ ( x ) P_{\theta}(\mathbf{x}) Pθ(x) 之间的差异。更准确地说,在假设检验的背景下,如果我们对 P W ( x ) P_{\mathcal{W}}(\mathbf{x}) PW(x) 采样 N N N 次并将结果与 P θ ( x ) P_{\theta}(\mathbf{x}) Pθ(x) 的预测进行比较,将 P W ( x ) P_{\mathcal{W}}(\mathbf{x}) PW(x) 误认为 P θ ( x ) P_{\theta}(\mathbf{x}) Pθ(x) 的概率大致按 e − N D 0 ( θ ) e^{-N D_{0}(\theta)} eND0(θ) 缩放 [866]。换句话说,具有较低 D 0 ( θ ) D_{0}(\theta) D0(θ) 的智能体产生的预测更接近现实。

例如,考虑两个材料合成智能体,其目标 M t g o a l M_{t}^{g o a l} Mtgoal 是了解目标无机化合物 C a F e 2 ( P O 4 ) 2 O \mathrm{CaFe_{2}(P O_{4})_{2}O} CaFe2(PO4)2O 是否可合成。智能体可以预测(1) x 1 = { C a F e 2 ( P O 4 ) 2 O {\bf x}_{\mathrm{1}}{=}\{\mathrm{CaFe_{2}(P O_{4})_{2}O} x1={CaFe2(PO4)2O 可合成},和(2) x 2 = { C a F e 2 ( P O 4 ) 2 O \scriptstyle\mathbf{x}_{2}=\{\mathbf{CaFe}_{2}(\mathbf{PO}_{4})_{2}\mathbf{O} x2={CaFe2(PO4)2O 不可合成}。实际上,由于 C a F e 2 ( P O 4 ) 2 O \mathrm{CaFe_{2}(P O_{4})_{2}O} CaFe2(PO4)2O 是一种天然矿物, P ˙ W ( x 1 ) = 1 \dot{P}_{\mathcal{W}}(\mathbf{x}_{1})=1 P˙W(x1)=1 P W ( x 2 ) = 0 P_{\mathcal{W}}(\mathbf{x}_{2})=0 PW(x2)=0。然而,这种矿物直到 2023 年 10 月 4 日才被报道[ref],这超出了许多大语言模型的知识截止日期;因此,智能体缺乏该知识。比较智能体 1,它随机猜测 P θ 1 ( x 1 ) α ˉ = P θ 1 ( x 1 ) = 0.5 P_{\theta_{1}}(\mathbf{x}_{1}){\bf{\bar{\alpha}}}=P_{\theta_{1}}(\mathbf{x}_{1})=0.5 Pθ1(x1)αˉ=Pθ1(x1)=0.5,得到 D 0 ( θ 1 )   =   ˉ log ⁡ 2 D_{0}(\theta_{1}\bar{)\ =\ }\log2 D0(θ1) = ˉlog2。相比之下,智能体 2 使用第一性原理计算发现 C a F e 2 ( P O 4 ) 2 O \mathrm{CaFe_{2}(P O_{4})_{2}O} CaFe2(PO4)2O(假设结构为 xx [cite: Materials Project ID])是其竞争相中的最低能量相 [ref],表明其稳定性。因此,智能体 2 预测 C a F e 2 ( P O 4 ) 2 O \mathrm{CaFe_{2}(P O_{4})_{2}O} CaFe2(PO4)2O 很可能可合成,即 P θ 2 ( x ˉ 1 ) > 0.5 > P θ 2 ( x 2 ) P_{\theta_{2}}(\mathbf{\bar{x}}_{1})>0.5>P_{\theta_{2}}(\mathbf{x}_{2}) Pθ2(xˉ1)>0.5>Pθ2(x2)。因此, D ˙ 0 ( θ ˙ 2 ) = − log ⁡ P θ 2 ( x 1 ) < D 0 ( θ 1 ) \dot{D}_{0}(\dot{\theta}_{2})=-\log P_{\theta_{2}}(\mathbf{x}_{1})<D_{0}(\theta_{1}) D˙0(θ˙2)=logPθ2(x1)<D0(θ1),这意味着智能体 2 对真实世界有更准确的理解。

现在,假设智能体已经进行了一些测量,并确定了数据点子集 x i x_{i} xi 的具体值。令 x K \mathbf{x}_{\mathrm{K}} xK 表示这个已知子集, x U \mathbf{x}_{\mathrm{U}} xU 表示剩余的未知部分。相应地,我们定义所有现有知识的空间为 κ \kappa κ,所有未知信息的空间为 U \mathcal{U} U,满足 x K ⊆ K \mathbf{x}_{\mathrm{K}}\subseteq{\mathcal{K}} xKK x U ⊆ U \mathbf{x}_{\mathrm{U}}\subseteq\mathcal{U} xUU,且 κ ∪ U = W \kappa\cup\mathcal{U}=\mathcal{W} κU=W。例如,在文本生成中,提示文本 x K \mathbf{x}_{\mathrm{K}} xK 代表已知的已知信息。然后,语言模型的效率由其基于 x K \mathbf{x}_{\mathrm{K}} xK 对生成的文本 x U \mathbf{x}_{\mathrm{U}} xU 的预测准确性来衡量。更一般地,智能体的智能由条件概率分布的相对熵来衡量:

D K ( θ , x K ) = ∑ x ⊆ U P W ( x ∣ x K ) log ⁡ P W ( x ∣ x K ) P θ ( x ∣ x K ) D_{\mathrm{K}}(\boldsymbol{\theta},{\bf x}_{\mathrm{K}})=\sum_{{\bf x}\subseteq\mathcal{U}}P_{\mathcal{W}}\left({\bf x}|{\bf x}_{\mathrm{K}}\right)\log\frac{P_{\mathcal{W}}\left({\bf x}|{\bf x}_{\mathrm{K}}\right)}{P_{\boldsymbol{\theta}}\left({\bf x}|{\bf x}_{\mathrm{K}}\right)} DK(θ,xK)=xUPW(xxK)logPθ(xxK)PW(xxK)

在实践中,智能体的所有知识都存储在其内存 M t m e m M_{t}^{\mathrm{mem}} Mtmem 中,即 x K = K = M t m e m \mathbf{x}_{\mathrm{K}}={\boldsymbol{K}}=M_{t}^{\mathrm{mem}} xK=K=Mtmem U = W ∖ M t m e m \mathcal{U}=\mathcal{W}\setminus M_{t}^{\mathrm{mem}} U=WMtmem,我们将智能体的智能定义为:

I Q t a g e n t ≡ − D K ( θ , M t m e m ) = − ∑ x ⊆ U P W ( x ∣ M t m e m ) log ⁡ P W ( x ∣ M t m e m ) P θ ( x ∣ M t m e m ) I Q_{t}^{\mathrm{agent}}\equiv-D_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}})=-\sum_{\mathbf{x}\subseteq\mathcal{U}}P_{\mathcal{W}}(\mathbf{x}|M_{t}^{\mathrm{mem}})\log\frac{P_{\mathcal{W}}(\mathbf{x}|M_{t}^{\mathrm{mem}})}{P_{\theta}(\mathbf{x}|M_{t}^{\mathrm{mem}})} IQtagentDK(θ,Mtmem)=xUPW(xMtmem)logPθ(xMtmem)PW(xMtmem)

换句话说,智能体的智能 I Q t a g e n t I Q_{t}^{\mathrm{agent}} IQtagent 由其内存 M t m e m M_{t}^{\mathrm{mem}} Mtmem 和其世界模型 M t w m M_{t}^{\mathrm{wm}} Mtwm 的参数 θ \theta θ 决定。图 12.1 展示了一个示意图。在时间 t = 0 t=0 t=0 时,当 M t m e m M_{t}^{\mathrm{mem}} Mtmem 非常有限或缺乏与新目标科学问题相关的信息时, I Q t a g e n t I Q_{t}^{\mathrm{agent}} IQtagent 主要由 M t w m M_{t}^{\mathrm{wm}} Mtwm 的零样本(zero-shot)预测能力决定,对应于流动智力(fluid intelligence)[867]。随着时间的推移,当更多相关知识被纳入 M t m e m M_{t}^{\mathrm{mem}} Mtmem 时, I Q t a g e n t I Q_{t}^{\mathrm{agent}} IQtagent 越来越依赖于 M t w m M_{t}^{\mathrm{wm}} Mtwm 的知识增强预测能力,反映了结晶智力(crystallized intelligence)[868]。


图 12.1: 智能体智能与知识发现的示意图。智能体的智能,以预测与真实世界概率分布之间的 KL 散度 D K D_{\mathrm{K}} DK 衡量,随着时间 t t t 其在内存 M t m e m M_{t}^{\mathrm{mem}} Mtmem 中积累数据,从流动智力(对新问题的零样本预测)演变为结晶智力(学习后的知识增强预测)。给定 M t m e m M_{t}^{\mathrm{mem}} Mtmem D K D_{\mathrm{K}} DK 的演化在世界模型的参数空间 Θ \Theta Θ 内变化,如实线中的 θ 1 \theta_{1} θ1 θ 2 \theta_{2} θ2 所示。 Θ \Theta Θ 的表达能力限制由包络线 D K , Θ m i n D_{\mathrm{K,\Theta}}^{\mathrm{min}} DK,Θmin 表征。给定 Θ \Theta Θ D K , Θ m i n D_{\mathrm{K,\Theta}}^{\mathrm{min}} DK,Θmin 受不同知识扩展策略的影响,例如 1 M t m e m ^1M_{t}^{\mathrm{mem}} 1Mtmem 2 M t m e m ^{2}M_{t}^{\mathrm{mem}} 2Mtmem,如虚线所示。

12.1.2 智能增长的统计性质

智能体的智能,在统计意义上,是所获知识的非递减函数。粗略地说, I Q t a g e n t I Q_{t}^{\mathrm{agent}} IQtagent 量化了智能体已获取的知识量以及智能体在从 M t m e m M_{t}^{\mathrm{mem}} Mtmem 学习后能多有效地应用这些知识。直观上,如果智能体在时间 t t t 获得了额外的信息——这对应于扩大 M t m e m M_{t}^{\mathrm{mem}} Mtmem 和缩小 U \mathcal{U} U——其智能应该增加。

为了理解这个过程,考虑一个小的区域 Δ ⊆ U \Delta\subseteq{\mathcal{U}} ΔU,并考察将来自 Δ \Delta Δ 的数据集 x Δ \mathbf{x}_{\Delta} xΔ 添加到 M t m e m M_{t}^{\mathrm{mem}} Mtmem 的效果。记 U = U ′ ∪ Δ \mathcal{U}=\mathcal{U}^{\prime}\cup\Delta U=UΔ,其中 U ′ \mathcal{U}^{\prime} U 代表世界剩余的未知部分。智能体在时间 t + 1 t+1 t+1 的智能由下式给出:

I Q t + 1 a g e n t ≡ − D K ( θ , M t m e m x Δ ) = − ∑ x ′ ⊆ U ′ P W ( x ′ ∣ M t m e m x Δ ) log ⁡ P W ( x ′ ∣ M t m e m x Δ ) P θ ( x ′ ∣ M t m e m x Δ ) I Q_{t+1}^{\mathrm{agent}}\equiv-D_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}}\mathbf{x}_{\Delta})=-\sum_{\mathbf{x}^{\prime}\subseteq\boldsymbol{U}^{\prime}}P_{\mathcal{W}}(\mathbf{x}^{\prime}|M_{t}^{\mathrm{mem}}\mathbf{x}_{\Delta})\log\frac{P_{\mathcal{W}}(\mathbf{x}^{\prime}|M_{t}^{\mathrm{mem}}\mathbf{x}_{\Delta})}{P_{\theta}(\mathbf{x}^{\prime}|M_{t}^{\mathrm{mem}}\mathbf{x}_{\Delta})} IQt+1agentDK(θ,MtmemxΔ)=xUPW(xMtmemxΔ)logPθ(xMtmemxΔ)PW(xMtmemxΔ)

直接比较 I Q t a g e n t I Q_{t}^{\mathrm{{agent}}} IQtagent I Q t + 1 a g e n t I Q_{t+1}^{\mathrm{agent}} IQt+1agent 具有挑战性。相反,我们可以比较 I Q t + 1 a g e n t I Q_{t+1}^{\mathrm{agent}} IQt+1agent x Δ \mathbf{x}_{\Delta} xΔ 上以概率 P W ( x Δ ∣ M t m e m ) P_{\mathcal{W}}(\mathbf{x}_{\Delta}|M_{t}^{\mathrm{mem}}) PW(xΔMtmem) 平均的期望值。这个期望代表了在给定 M t m e m M_{t}^{\mathrm{mem}} Mtmem 中先验知识的情况下,通过测量 Δ \Delta Δ 所获得的平均知识量。我们得到:

∑ x ⊆ Δ P W ( x ∣ M t m e m ) I Q t + 1 a g e n t = − ∑ x ′ ⊆ U ′ , x ⊆ Δ P W ( x ′ x ∣ M t m e m ) log ⁡ P W ( x ′ ∣ M t m e m x ) P θ ( x ′ ∣ M t m e m x ) = I Q t a g e n t + ∑ x ⊆ Δ P W ( x ∣ M t m e m ) log ⁡ P W ( x ∣ M t m e m ) P θ ( x ∣ M t m e m ) \begin{array}{r}{\displaystyle\sum_{\mathbf{x}\subseteq\Delta}P_{\mathcal{W}}(\mathbf{x}|M_{t}^{\mathrm{mem}})I Q_{t+1}^{\mathrm{agent}}=-\sum_{\mathbf{x}^{\prime}\subseteq\mathcal{U}^{\prime},\mathbf{x}\subseteq\Delta}P_{\mathcal{W}}(\mathbf{x}^{\prime}\mathbf{x}|M_{t}^{\mathrm{mem}})\log\frac{P_{\mathcal{W}}(\mathbf{x}^{\prime}|M_{t}^{\mathrm{mem}}\mathbf{x})}{P_{\theta}(\mathbf{x}^{\prime}|M_{t}^{\mathrm{mem}}\mathbf{x})}}\\ {=I Q_{t}^{\mathrm{agent}}+\displaystyle\sum_{\mathbf{x}\subseteq\Delta}P_{\mathcal{W}}(\mathbf{x}|M_{t}^{\mathrm{mem}})\log\frac{P_{\mathcal{W}}(\mathbf{x}|M_{t}^{\mathrm{mem}})}{P_{\theta}(\mathbf{x}|M_{t}^{\mathrm{mem}})}}\end{array} xΔPW(xMtmem)IQt+1agent=xU,xΔPW(xxMtmem)logPθ(xMtmemx)PW(xMtmemx)=IQtagent+xΔPW(xMtmem)logPθ(xMtmem)PW(xMtmem)

第二项是 x Δ \mathbf{x}_{\Delta} xΔ M t m e m M_{t}^{\mathrm{mem}} Mtmem 条件下的条件概率分布的相对熵,它总是非负的。因此,平均而言,随着 M t m e m M_{t}^{\mathrm{mem}} Mtmem 随时间获取新知识, I Q t a g e n t I Q_{t}^{\mathrm{{agent}}} IQtagent 是非递减的。注意, I Q t + 1 a g e n t I Q_{t+1}^{\mathrm{agent}} IQt+1agent 可以通过利用新获取的知识来优化 M t w m M_{t}^{\mathrm{wm}} Mtwm 内的 θ \theta θ 进一步增加。

有趣的是,在时间 t t t 的预期智能增益取决于实际分布 P W ( x ∣ M t m e m ) P_{\mathcal{W}}(\mathbf{x}|M_{t}^{\mathrm{mem}}) PW(xMtmem) 与模型预测分布 P θ ( x ∣ M t m e m ) P_{\theta}(\mathbf{x}|M_{t}^{\mathrm{mem}}) Pθ(xMtmem) 之间的差异。换句话说,当新的测量结果更出乎意料时,图 12.1 中智能增长的速率更高。这一观察将科学家智能体 [859] 识别为一种特殊类型的好奇心驱动智能体 [869],优先考虑探索而非利用,以扩展知识前沿,从而更深入地理解自然。与那些利用现有知识实现预定义目标的智能体不同,好奇心驱动的智能体可以在没有外在奖励的情况下学习 [387, 870](详见第 5.3 节),从而实现超越人类规划搜索空间的发现,并揭示未探索领域的知识。这种潜力也强调了为好奇心驱动的智能体配备可转移到探索新知识领域的基础感知和行动工具的重要性。

12.1.3 智能演化策略

扩展已知信息的策略决定了智能体智能演化的速度。对于给定的知识库 M t m e m M_{t}^{\mathrm{mem}} Mtmem,参数 θ \theta θ 可以在由 M t w m M_{t}^{\mathrm{wm}} Mtwm 架构表征的世界模型空间 Θ \Theta Θ 上进行优化。最优智能体是最小化 D K ( θ , M t m e m ) D_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}}) DK(θ,Mtmem),从而最大化 I Q t a g e n t I Q_{t}^{\mathrm{agent}} IQtagent 的那个:

θ K , t ∗ ≡ arg ⁡ sup ⁡ θ I Q t a g e n t = arg ⁡ inf ⁡ θ D K ( θ , M t m e m ) \theta_{\mathrm{K},t}^{*}\equiv\arg\operatorname*{sup}_{\theta}I Q_{t}^{\mathrm{agent}}=\arg\operatorname*{inf}_{\theta}D_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}}) θK,targθsupIQtagent=argθinfDK(θ,Mtmem)

并且

D K , Θ m i n ( M t m e m ) ≡ D K ( θ K , t ∗ , M t m e m ) D_{\mathrm{K},\Theta}^{\mathrm{min}}(M_{t}^{\mathrm{mem}})\equiv D_{\mathrm{K}}(\theta_{\mathrm{K},t}^{*},M_{t}^{\mathrm{mem}}) DK,Θmin(Mtmem)DK(θK,t,Mtmem)

这里, D K , Θ m i n ( M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{mem}}) DK,Θmin(Mtmem) 表示对于这类模型,在从 M t m e m M_{t}^{\mathrm{mem}} Mtmem 学习后所能达到的最小未知量,量化了 Θ \Theta Θ 的表达能力限制。如图 12.1 所示, D K , Θ m i n ( M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{mem}}) DK,Θmin(Mtmem) 构成了函数族 D K ( θ , M t m e m ) D_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}}) DK(θ,Mtmem) 的包络线,其中 θ \theta θ Θ \Theta Θ 上变化。

对于给定的模型族 Θ \Theta Θ D K , Θ m i n ( M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{mem}}) DK,Θmin(Mtmem) 衡量了基于 M t m e m M_{t}^{\mathrm{mem}} Mtmem 解决目标科学问题时对剩余未知信息的最佳可能预测。换句话说, M t m e m M_{t}^{\mathrm{mem}} Mtmem 中的知识内容由 D K , Θ m i n ( M ˉ t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(\bar{M}_{t}^{\mathrm{mem}}) DK,Θmin(Mˉtmem) 捕获。可以证明,随着 M t m e m M_{t}^{\mathrm{mem}} Mtmem 的扩展, D K , Θ m i n ( M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{mem}}) DK,Θmin(Mtmem) 是单调非增的,因为它是一个非增函数族 D K ( θ , M t m e m ) D_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}}) DK(θ,Mtmem) 的包络线。这个扩展过程与智能体如何行动和获取信息相关,由 M t w m M_{t}^{\mathrm{wm}} Mtwm 驱动,它确定最优的扩展并通过在时间 t t t 的动作 a t ∈ A a_{t}\in\mathcal A atA 来执行(见表 1.2)。

在知识发现过程中,可以采用不同的策略来扩展 M t m e m M_{t}^{\mathrm{mem}} Mtmem。最优的扩展策略是导致 D K , Θ m i n ( M t m e m ˉ ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{me\bar{m}}}) DK,Θmin(Mtmemˉ) 下降最快的策略。例如,在图 12.1 中,我们展示了两种扩展 M t m e m M_{t}^{\mathrm{mem}} Mtmem 的策略,表示为 1 M t m e m ^1M_{t}^{\mathrm{mem}} 1Mtmem 2 M t m e m ^{2}M_{t}^{\mathrm{mem}} 2Mtmem。第一种策略 1 M t m e m ^1M_{t}^{\mathrm{mem}} 1Mtmem 代表随机探索,而第二种 2 M t m e m ^{2}M_{t}^{\mathrm{mem}} 2Mtmem 遵循假设驱动的方法 [871],其中智能体首先形成关于目标问题潜在机制的假设,然后设计实验来辩护或证伪这个假设 [749]。实验分析通常采用假设驱动的思维方式,优先考虑以最大化 D K , Θ m i n ( M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{mem}}) DK,Θmin(Mtmem) 减少量的方式扩展 M t m e m M_{t}^{\mathrm{mem}} Mtmem,并受资源约束。这种方法通常比随机探索更有效地扩展 M t m e m M_{t}^{\mathrm{mem}} Mtmem,导致 D K , Θ m i n ( 2 M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(^{2}M_{t}^{\mathrm{mem}}) DK,Θmin(2Mtmem) D K , Θ m i n ( 1 M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(^{1}M_{t}^{\mathrm{mem}}) DK,Θmin(1Mtmem) 下降得更快。

总的来说,知识发现过程是迭代进行的,重复优化世界模型参数 θ \theta θ 以接近 θ K , t ∗ \theta_{\mathrm{K},t}^{*} θK,t,并以合理的方式扩展 M t m e m M_{t}^{\mathrm{mem}} Mtmem 以加速 D K , Θ m i n ( M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{mem}}) DK,Θmin(Mtmem) 的下降。理想状态是达到认知完备性(epistemic completeness),即 D K , Θ m i n ( M t m e m ) = 0 D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{mem}})=0 DK,Θmin(Mtmem)=0,这意味着智能体的预测与真实世界现象之间没有差异。然而,对于特定的智能体,可能存在发现界限,其中 D K , Θ m i n ( M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{mem}}) DK,Θmin(Mtmem) 趋近于零但保持为正。这些差异源于实际约束以及 Θ \Theta Θ A \mathcal{A} A 和智能体其他设计空间的限制 [872]。实现低发现界限需要设计自适应的世界模型架构、高效的知识扩展策略和充足的行动空间。

12.2 智能体-知识交互

典型的科学知识形式包括观测知识(例如,实验测量、计算结果)、方法论知识(例如,实验方法、计算技术、协议)和理论知识(例如,理论、定律、预测模型)。只要这些知识形式包含以影响未知信息概率分布 P θ ( x U ∣ M t m e m ) P_{\theta}\left(\mathbf{x}_{\mathrm{U}}|M_{t}^{\mathrm{mem}}\right) Pθ(xUMtmem)、减少 D K ( θ , M t m e m ) D_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}}) DK(θ,Mtmem) 并促进决策的方式处理的数据和信息,它们就能有助于科学理解。

原则上,外部科学知识已被证明有助于提高智能体在推理和决策方面的性能 [873, 874]。然而,本调查的范围在于智能体如何能够自主地发现和利用知识来增强自身。科学知识发现工作流程通常涉及假设生成、协议规划、进行实验和计算、分析数据、推导含义以及修订假设——通常是迭代循环的一部分。能够感知、学习、推理和行动的智能体有潜力以自主方式驱动此类工作流程,例如通过使用应用程序编程接口(API)与物理仪器交互以获取科学知识并迭代地增强其知识库(图 12.2)。智能体将使用获取的知识来更新其心智状态 M t M_{t} Mt,以便在与世界 W \mathcal{W} W 交互时做出更好的决策。我们现在将重点介绍智能体发现科学知识并增强自身的三种场景。


图 12.2: 用于可持续自我进化的闭环知识发现。智能体旨在通过假设生成和测试,以及通过数据分析和含义推导,迭代地增强其智能 I Q t a g e n t I Q_{t}^{\mathrm{{agent}}} IQtagent。当与物理世界 W W W 交互时,智能体生成假设作为未知信息的显式或隐式预测分布 ( P θ ) (P_{\theta}) (Pθ),采取行动 ( a t ) (a_{t}) (at) 进行假设测试,观察实验结果 ( o t ) (o_{t}) (ot),并基于对真实世界分布 ( P W ) (P_{W}) (PW) 的感知更新信念。当不与 W W W 交互时,智能体从现有数据和前提中提炼知识,直接更新心智状态 M t M_{t} Mt。灵感来自 [864] 中的图 2.3 和 2.5。

12.2.1 假设生成与测试

假设生成与测试(图 12.2)是智能体在自主科学发现中的一个关键应用,因为它有潜力实现跳出固有思维模式的创新(outside-the-box innovations)[749]。本质上,假设生成是形成潜在规则的过程,这些规则支配着与未观察到的科学现象相关的数据分布——从单一观察到大型数据集。根据卡尔·波普尔爵士的观点,科学假设必须是可证伪的 [875, 876];在本次讨论中,我们将经受住证伪的假设定义为得到辩护的真假设(justified true hypothesis)[877, 860]。通常,科学家通过进行实验来检验假设,以辩护或证伪它们。如果一个假设足够广泛,能够解释大范围的数据,并且极有可能为真,那么它就被认为更有价值。

为了解决一个科学问题,智能体基于其心智状态 M t M_{t} Mt 形成一个或少数几个高价值的假设,而 M t M_{t} Mt 只包含关于部分可观测世界 W \mathcal{W} W 的不完整信息。通过实验或计算进行测试后,一个得到辩护的真假设就成为指导性知识,以迅速最小化 D K , Θ m i n ( M t m e m ) D_{\mathrm{K,\Theta}}^{\mathrm{min}}(M_{t}^{\mathrm{mem}}) DK,Θmin(Mtmem) 的方式扩展 M t m e m M_{t}^{\mathrm{mem}} Mtmem。因此,生成和测试高价值假设可以快速促进知识发现并提高 I Q t a g e n t I Q_{t}^{\mathrm{agent}} IQtagent。在这种场景下,智能体使用学习函数 L \mathrm{L} L 来处理来自假设测试的观察结果 o t o_{t} ot,将其转化为知识并更新其心智状态 M t M_{t} Mt

生成具有物理意义的假设是关键一步。智能体通常使用大语言模型以及协作架构和领域知识来生成假设 [878]。Si 等人 [742] 进行了一项涉及 100 多名 NLP 研究人员的大规模人类研究,发现大语言模型生成的想法被评为比人类专家想法更新颖 ( p < 0.05 ) (p<0.05) (p<0.05),尽管在可行性上稍弱。Ghafarollahi 等人 [743] 开发了 SciAgents,它可以生成和完善材料科学假设,以阐明受生物启发的材料的潜在机制、设计原则和意外特性。基于大规模本体知识图谱,SciAgents 在感兴趣的概念之间采样一条可行路径,形成一个相关的假设,并将其扩展为一个包含详细假设测试方法和标准的完整研究方案。它使用两个专门的智能体来审查、批评和改进所提出的假设,但并未包括通过实际实验进行假设测试的步骤。类似地,Su 等人 [879] 和 Baek 等人 [880] 提出利用团队合作——例如协作讨论和智能体评论员——来产生新颖有效的科学假设。此外,Gower 等人 [881] 引入了 L G E M + \mathrm{LGEM^{+}} LGEM+,它利用一阶逻辑框架来描述生化途径,并为酵母 S. cerevisiae 中基因组规模代谢模型的自动化溯因改进(abductive improvement)生成了 2,094 个独特的候选假设。

假设只有在通过计算或实验观察得到辩护后才能成为知识。Lu 等人 [745] 介绍了 AI Scientist,一个为全自动科学发现设计的系统。AI Scientist 可以独立进行研究并交流其发现,正如在三个机器学习子领域——扩散建模、基于 Transformer 的语言建模和学习动力学——中所展示的那样。它产生原创研究想法,编写代码,执行计算实验,可视化结果,起草完整的科学论文,甚至模拟同行评审过程进行评估。例如,它提出了“自适应双尺度去噪可以通过平衡生成样本中的全局结构和局部细节来改进扩散模型”的假设,并通过在四个 2D 数据集上进行图像生成测试得到了辩护。类似地,Schmidgall 等人 [746] 开发了 Agent Laboratory,以自主执行整个研究过程,包括文献回顾、计算实验和报告撰写。他们通过解决计算机视觉和自然语言处理中的五个研究问题来评估 Agent Laboratory 的知识发现能力,获得了平均人类评估实验质量得分 3.2 分(满分 5 分)。此外,Tiukova 等人 [744] 开发了 Genesis,一个能够控制一千个微型生物反应器、执行质谱表征、访问结构化领域信息数据库,并应用实验观察来改进系统生物学模型的自动化系统。Genesis 每天可以启动并执行 1,000 个假设驱动的闭环实验循环。使用类似的方法,Genesis 团队改进了酵母(S. cerevisiae)双峰生长转换(diauxic shift)模型,超越了之前的最佳模型,并将其知识扩展了 92 个基因 ( + 45 % ) (+45\%) (+45%) 和 1,048 个相互作用 ( + 147 % ) (+147\%) (+147%) [882]。这些知识也增进了我们对癌症、免疫系统和衰老的理解。类似地,Gottweis 等人 [749] 介绍了 AI 合作科学家(AI co-scientist),它自主生成和完善新颖的研究假设,并在三个生物医学领域进行了体外验证:药物再利用、新靶点发现以及细菌进化和抗菌素耐药性机制。

发现的知识增强了智能体的心智状态,例如 M t m e m M_{t}^{\mathrm{mem}} Mtmem M t w m M_{t}^{\mathrm{wm}} Mtwm M t r e w M_{t}^{\mathrm{rew}} Mtrew。Tang 等人 [747] 开发了 ChemAgent,它通过动态的、自我更新的内存 M t m e m M_{t}^{\mathrm{mem}} Mtmem 来改进化学推理。ChemAgent 对开发数据集中的化学问题提出假设性答案,根据基准真相(ground truth)评估它们,并模拟现实世界研究中使用的假设测试过程。然后,正确的答案作为知识存储在其内存中,以支持未来的化学问题解答。当 ChemAgent 应用于来自 SciBench [883] 的四个化学推理数据集时,这种自我更新的内存带来了高达 46 % 46\% 46%(使用 GPT-4)的性能提升。Wang 等人 [884] 引入了分子语言增强进化优化(Molecular Language-Enhanced Evolutionary Optimization, MOLLEO),它迭代地提出修改 M t m e m M_{t}^{\mathrm{mem}} Mtmem 中候选药物分子的假设,评估它们的类药性和活性,并更新 M t m e m M_{t}^{\mathrm{mem}} Mtmem 中的候选物以增强药物发现。类似地,Jia 等人 [885] 开发了 LLMatDesign,它采用假设引导的结构生成和自我更新的 M t m e m M_{t}^{\mathrm{mem}} Mtmem 来设计无机光伏材料,其理想性由匹配目标带隙和具有最负的形成能来定义。

Sim 等人 [748] 介绍了 ChemOS 2.0,它在化学自主驾驶实验室(Self-Driving Laboratories, SDLs)中协调闭环操作。ChemOS 2.0 集成了从头计算、实验编排和统计算法,用于自主发现高性能材料。一个关于发现有机激光分子的案例研究展示了其能力。它使用贝叶斯优化器 Atlas 作为其世界模型 M t w m M_{t}^{\mathrm{wm}} Mtwm 来预测假设分子的光学性质——特别是双[(N-咔唑基)苯乙烯基]联苯(BSBCz)衍生物——包括增益截面和光谱增益因子。基于这些预测,ChemOS 2.0 推荐在实验活动中具有更高成功概率的分子。然后,它利用光学表征平台和 AiiDA 软件包来测量和模拟测试分子的性质。结果用于更新 M t w m M_{t}^{\mathrm{wm}} Mtwm,提高未来实验预测的准确性。

Hysmith 等人 [886] 发表了一篇观点文章,强调了奖励函数设计在为 SDL 开发前瞻性工作流程中的关键作用。智能体在模拟环境(如计算机游戏或仿真)中解决部分可观测马尔可夫决策过程(POMDP)问题可能非常有效,但在实际应用中常常遇到困难。一个明确定义的奖励函数对于迭代自我进化至关重要。然而,在许多现实世界的科学研究问题中,由于缺乏直接测量、实验结果的复杂性以及需要平衡多个目标,奖励函数在实验活动结束时往往定义不清或缺失。新知识的发现可以作为完善 M t r e w M_{t}^{\mathrm{rew}} Mtrew 的宝贵资源,指导假设探索和实验数据收集。

12.2.2 协议规划与工具创新

规划实验协议和优化工具使用的能力使智能体能够在自主发现循环中解决复杂的科学难题。如第 9.4 节所述,智能体可以系统地评估和改进其选择、调用和集成可用工具的方法——甚至开发为特定任务需求量身定制的新工具。虽然优化的协议和工具使用并不直接减少 D ˉ K ( θ , M t m e m ) \bar{D}_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}}) DˉK(θ,Mtmem),但它们提高了执行效率和在精化未知信息概率分布 P ˙ θ ( x U ∣ M t m e m ) \dot{P}_{\theta}\left(\mathbf{x}_{\mathrm{U}}|M_{t}^{\mathrm{mem}}\right) P˙θ(xUMtmem) 方面的有效性,从而加速知识发现。在这种场景下,智能体利用推理函数 R \mathrm{R} R 将其不断演化的心智状态 M t M_{t} Mt(持续用新知识更新)转化为现实世界的行动 a t a_{t} at,以实现更有效、更快速的假设测试(图 12.2)。

调度和编排现有工具的选择和重组至关重要。科学实验通常依赖于各种仪器来分析反应产物,决策很少仅依赖于一次测量。有效地利用必要的仪器而不浪费资源和时间,需要智能体学会以集成和自适应的方式使用工具。Dai 等人 [750] 设计了一个模块化工作流程,集成了移动机器人、自动化合成平台和各种表征仪器,用于自主发现。他们通过三个领域展示了该系统:结构多样化化学、超分子主客体化学和光化学合成。移动机器人遵循合成-分析-决策循环来模拟人类的实验策略,自主确定后续工作流程步骤。它选择合适的仪器,例如用于合成的 Chemspeed ISynth 平台,用于测量对应化学峰信号的质谱的液相色谱-质谱联用仪(UPLC-MS),以及用于跟踪从起始材料到产物的化学转化的台式核磁共振波谱仪(NMR)。

除了单个实验室,工具编排对于分散化和异步的科学发现也至关重要。Strieth-Kalthoff 等人 [751] 展示了跨越三大洲的五个材料科学实验室的闭环集成,推动了分散化和民主化的科学发现。这五个实验室各有优势——例如,不列颠哥伦比亚大学擅长连续优先结晶,而九州大学则在薄膜制备和表征方面表现出色。Strieth-Kalthoff 等人采用了一个基于云的实验规划器,不断从传入的数据中学习,并有效地优先安排在五个实验室进行的信息丰富的实验,最终发现了 21 种用于有机固态激光器的最先进新材料。

此外,智能体可以优化现有工具,甚至创建新工具来增强其能力。Swanson 等人 [752] 开发了虚拟实验室(Virtual Lab),这是一个人工智能驱动的研究环境,促进了新型 SARS-CoV-2 纳米抗体的设计和实验验证。在虚拟实验室中,人工智能智能体在团队会议中进行科学讨论,并在个人会话中执行专门任务。智能体的一个关键议程是开发辅助设计纳米抗体结合剂的工具 [887],包括:(1)一个序列分析工具,使用来自 ESM 蛋白质语言模型 [888] 的对数似然比对候选点突变进行排序;(2)一个结构评估工具,从 AlphaFold-Multimer 预测 [889] 中提取界面 pLDDT 分数,提供抗体-抗原结合亲和力的代理指标;以及(3)一个基于 Rosetta [890] 构建的能量估计工具,用于量化纳米抗体变体与刺突蛋白之间的结合强度。这些由智能体生成的工具使虚拟实验室能够发现两种新型纳米抗体,它们增强了与 JN.1 或 KP.3 SARS-CoV-2 变体的结合,同时保留了对祖先病毒刺突蛋白的强亲和力。

12.2.3 数据分析与含义推导

尽管大多数知识发现过程依赖于生成假设并在现实世界中进行测试——其中观察 o t o_{t} ot 至关重要——但相当一部分知识可以通过纯粹的内部行动(如迭代推理和深度思考)推导出来,这在理论学科中很常见。例如,欧几里得几何中的所有定理都可以仅从五个公理推导出来,但在被推导出来之前,这些定理并不显式存在于心智状态中。给定所有必要的前提,例如欧几里得的五个公设,一个假设的真实概率可能仍然难以捉摸。然而,使用演绎和归纳推理从已知前提和数据中得出含义,有助于辩护或证伪假设,从而减少 D K ( θ , M t m e m ) D_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}}) DK(θ,Mtmem) 并增强 I Q t a g e n t I Q_{t}^{\mathrm{agent}} IQtagent(图 12.2)。在这种场景下,智能体使用认知函数 C,利用先前的心理状态 M t − 1 M_{t-1} Mt1 和内部行动 a t a_{t} at 来推导新知识,并将心理状态更新为 M t M_{t} Mt

演绎推理通过逻辑实现知识推导。Trinh 等人 [753] 开发了 AlphaGeometry,用于基于欧几里得平面几何中现有定理向前推导新的数学定理。AlphaGeometry 使用神经语言模型在平面几何问题中构造辅助点,并集成了专门的符号引擎来穷尽地推导新的真语句,从而扩展已知真理的联合闭包(joint closure)。通过利用这个扩展的闭包,它在辅助构造和符号推理引擎之间交替进行,以揭示进一步的含义。AlphaGeometry 在包含 30 个近期奥林匹克级别问题的测试集上表现出色,解决了 25 个问题——是先前最佳方法解决的 10 个问题的两倍多——并接近了国际数学奥林匹克(IMO)金牌得主的平均水平。

归纳推理通过模式识别和统计学习实现知识推导。Liu 等人 [754] 引入了 AI 制造的科学家团队(Team of AI-made Scientists, TAIS),以模拟数据科学家的角色,从而简化数据分析。TAIS 将复杂的数据分析问题分解为不同的计算任务,包括编码、自我批评和回归分析,以从复杂数据集中提取有意义的见解。当应用于识别疾病预测基因时,TAIS 在包含 457 个遗传问题的基准数据集上实现了 45.73 % 45.73\% 45.73% 的总体成功率。理想情况下,提取的见解应具有逻辑上的合理性;否则,必须丢弃它们以确保只有准确的发现被安全地整合到心智状态中。然而,数据覆盖范围的限制和分析算法的实现可能导致幻觉性的见解,这突显了需要可靠的数据分析器和推理工具来防止过度分析。

12.3 技术准备情况与挑战

智能体的自我进化反过来驱动人类知识的进步,这一点已通过它们在创新周期中的早期成功得到印证。这个周期涉及生成有意义的假设、设计实时测试协议、协调各种实验和计算工具、分析数据、推导含义以及进行自我反思。然而,实现完全自主的自我进化仍然是一个重大挑战,考虑到三项基本能力——现实世界交互、复杂推理以及先验知识整合——的当前技术成熟度等级(Technology Readiness Levels, TRLs)还不够高。需要进一步的技术进步来改进自我驱动的创新周期。

12.3.1 现实世界交互挑战

智能体主要通过应用程序编程接口(API)与现实世界交互。虽然大量演示 [891] 表明它们具有使用各种 API 的强大能力,但自主知识发现中的一个重要瓶颈仍然存在:缺乏允许智能体直接在物理实验室执行任务的 API。物理 API——能够直接控制实验室设备的接口——远比计算 API 稀少,因为开发它们需要投入大量的时间、专业知识和成本。尽管现有的自主实验室已显示出潜力,但它们仍处于早期开发阶段(通常为 TRL 4-6),难以直接复制或扩大规模。因此,构建更多系统或将其应用扩展到其他科学领域仍然需要大量的定制以满足特定领域的需求,以及专门的专业知识。

实现现实世界交互需要完成两个关键任务:操作实验室设备和在设备之间转移样品。物理硬件和实验样品的无缝集成对于维持不间断的工作流程至关重要。然而,大多数实验仪器最初是为人类操作而设计的。要让智能体能够访问它们,需要跨多个学科的广泛努力,包括机器人学、电气工程、机械工程和软件编程。自主驾驶实验室(SDL)的兴起正在催化通过 API 将人操作的设备转变为智能体可访问的系统。在进行复杂实验的自主实验室中,通常采用两种并行且常常互补的方法来将硬件与智能体系统集成。这两种方法都是模块化、可重构且有价值的,但它们都需要持续的、专门的开发。

方法 1:通过直接设备适配进行 API 集成。这种方法涉及为单个设备配备专用的机械适配器和 I/O 控制器,使其能够接收并执行来自中央控制 PC 的命令。例如,为了实现无机材料的固态合成和结构表征,A-lab 已经部署了 16 种类型的设备来自动化实验任务,如粉末加料、加热和衍射 [892]。这种方法通过最大化设备利用率、优化空间和资源以及支持定制工具,使实验室能够作为完全集成的实体运行。然而,这种方法成本高昂、耗时,并且需要专业知识来原型化或改造设备以实现自动化。大型语言模型已被应用于促进对各种工具的访问,如 CACTUS(一个连接工具使用与科学的化学智能体)所示 [893]。

对于小型团队来说,一个更易于访问的替代方案是云实验室或科学工厂 [894],其中设备工程的责任从个别实验室转移到专门的用户设施或商业服务提供商。例如,Boiko 等人 [895] 展示了一个自主化学研究智能体 Coscientist,能够使用 Emerald 云实验室 [896] 的实验装置进行交叉偶联 Suzuki 和 Sonogashira 反应。然而,云实验室仅提供一套为常见程序优化的预构建设备,这可能给那些实验需要设备定制的研究人员带来挑战,因为集成非标准工具可能涉及漫长的谈判和开发过程。

方法 2:通过机器人操作实验设备。这种方法涉及使用移动机器人或机械臂来操作现有设备并转移样品。在许多情况下,机器人可以与仪器交互而无需修改,除了微小的调整,如添加专门的执行器、夹具或支架。例如,Dai 等人 [750] 使用移动机器人来探索合成化学。在他们的自主实验室中,移动机器人实现了空间分离的合成和分析设备之间的物理连接,自动化了样品运输和处理。原则上,机器人可以执行人类研究人员在实验室中需要的所有动作。然而,目前的机器人系统仍然依赖于人类预先编程来绘制实验室布局、定义运动轨迹和注册设备位置。处理意外或自适应情况仍然是一个挑战,因为预编程无法预测实验装置的每一种可能状态。实时学习和自适应操作是活跃的研究领域,需要进一步的技术进步。从长远来看,具身 AI(Embodied AI)[897] 有望增强机器人学习,使智能体能够快速适应新环境和工具。

这两种方法可以结合使用。例如,Vescovi 等人 [894] 定义了一个模块化的实验室机器人架构,允许将高级命令转换为各种不同机器人设备和实验室设备的特定操作,并将机器人设备与 AI 驱动发现架构的其他元素(如高性能计算 [898])连接起来。该架构已被用于自动化生物和物理科学领域的实验 [899]。类似地,Fernando 等人 [900] 将兼容机器人操作系统 2(Robotic Operating System 2, ROS2)的机器人集成到 Bluesky 实验编排框架中。Lo 等人 [901] 主张开发和集成更昂贵设备的低成本“孪生”设备(frugal twins),以促进实验并实现民主化访问。

12.3.2 复杂推理挑战

一个根本的哲学问题是,通常由大语言模型驱动的智能体是否能真正执行推理。根据定义,语言模型通过预测下一个标记来生成输出,这与人类推理的机制根本不同。从结果驱动的角度来看,这些输入输出系统在现象学上表现出推理能力,因为与生成任意响应的参考系统相比,它们能产生有意义的输出 [902]。然而,无论采取何种视角,这种能力仍然不完善——特别是在处理复杂的逻辑和数值问题时,这对科学知识发现至关重要。

智能体和大语言模型在困难的推理任务上表现不佳。Glazer 等人 [903] 引入了 FrontierMath,这是一个包含数百个原创且具有挑战性的数学问题的基准,涵盖了现代数学的大多数主要分支。对最先进的大语言模型驱动智能体——包括 o1-preview (OpenAI)、o1-mini (OpenAI)、GPT-4o (OpenAI, 2024-08-06 版本)、Claude 3.5 Sonnet (Anthropic, 2024-10-22 版本)、Grok 2 Beta (XAI) 和 Gemini 1.5   P r o   002 1.5\:\mathrm{Pro}\:002 1.5Pro002 (Google DeepMind)——的评估显示,没有一个模型在完整基准上达到 2% 的成功率。Chen 等人 [873] 提出了 ScienceAgentBench,这是一个旨在评估语言智能体在数据驱动科学发现中能力的基准。在来自四个学科的 44 篇同行评审出版物的 102 个任务中,OpenAI o1 仅成功解决了 42.2%。Chollet [865] 提出了抽象与推理挑战赛(Abstraction and Reasoning Challenge, ARC),以评估大语言模型在不依赖记忆或外部知识的情况下执行抽象归纳推理的能力。即使经过仔细的提示(prompting),GPT-4o 也仅正确解决了 19% 的任务,远低于约 75% 的平均人类表现 [904, 905]。Zhu 等人 [906] 提出了 AI 智能的四级分类,包括 L1(裁决争议)、L2(审计评审)、L3(评审论文)和 L4(撰写论文)。他们将当前最先进的大语言模型驱动智能体归类为接近 L2 级能力。为了增强智能体的推理能力,研究人员引入了诸如思维链(chain-of-thought)[907]、思维树(tree-of-thoughts)[72] 和 [70] 等技术。尽管新方法不断涌现,如第 2.2 节所述,推理能力的进一步提升对于在科学研究中实现可靠的因果推断仍然至关重要。

智能体和大语言模型在定量和符号问题上也存在困难。例如,GPT-4 和 GPT-3.5 常常难以可靠地执行复杂算术,如计算 12 , 345 × 98 , 765 12,345 \times 98,765 12,345×98,765,或将 IUPAC 化学名称准确翻译成分子图 [908, 697]。克服这些限制的一个常用方法是使用外部工具,而不是依赖大语言模型本身进行推理。例如,在数学问题解决中,像符号求解器这样的工具优于直接的大语言模型推理 [753]。然而,这种缓解措施并不能解决数值理解方面的内在缺陷,这给科学推理带来了潜在风险。此外,Yu 等人 [909] 发现,在化学问题解决方面,工具增强的大语言模型并不总是优于没有工具的基础大语言模型。例如,对于专门的化学任务,如合成预测,用专门工具增强大语言模型可以显著提高性能;然而,对于一般的化学问题,如考试中的问题,没有特定的工具可以直接解决给定问题,工具增强的效果就不那么明显了。在这些场景中,智能体通过运用多条化学知识进行正确推理的能力变得更加重要。

前面的讨论强调了开发稳健方法来评估作为科学研究助手的 AI 智能体的重要性,Cappello 等人 [910] 对此进行了详细讨论。

12.3.3 整合先验知识的挑战

先验知识是实现更高智能的关键因素。如第 12.1 节所述,智能体的先验知识 M t m e m M_{t}^{\mathrm{mem}} Mtmem 有助于降低 D K ( θ , M t m e m ) D_{\mathrm{K}}(\theta,M_{t}^{\mathrm{mem}}) DK(θ,Mtmem) 并提高智能体的智能 I Q t a g e n t I Q_{t}^{\mathrm{agent}} IQtagent。人类主导的科学发现常常凭借相对较小的数据集就能取得突破,这得益于人类拥有的庞大先验知识。驱动自主智能体的最先进大语言模型是在几乎所有公开可用的文本数据(包括网站、书籍和其他来源)上训练的,因此包含了大部分常识以及公开可获取的专业知识。然而,实现一个能够无缝整合所有现有的人类知识的智能体仍然是一个巨大的挑战。

至少有三种类型的知识源可能未包含在大语言模型预训练中:(1)付费或未发表的知识,包括非开放获取的出版物、行业特定数据和失败的实验 [911]。尽管它们在提炼特定领域见解方面具有潜在价值,但公共模型通常无法访问它们。(2)经验知识。专家的启发式决策通常是有效的,特别是在新问题没有可用数据的场景中。然而,大量的专家启发式知识通常无法以文本数据的形式获取。(3)情境或场景知识。与现实世界条件相关的知识,例如化学反应或设备操作中的安全协议,通常在预训练模型中缺失,但对于实际应用至关重要。

此外,整合不同的知识源在协调冲突信息方面也带来了挑战。例如,OpenAI 的 Deep Research [912] 主动收集在线信息并执行多步推理,在 Humanity’s Last Exam 和 GAIA 基准测试中取得了最先进的性能。然而,它仍然难以区分权威信息和谣言,并在置信度校准方面表现出局限性,常常错误地表述其确定性水平 [912]。建立一个评估不同知识片段证据等级 [913] 的系统——例如量化可靠性和验证参考文献——对于有效的知识融合可能是必要的。

第三部分 协作与进化智能系统

协作与进化的概念是智能多智能体系统(Multi-Agent Systems, MAS)的核心。受生物生态系统和人类社会动态的启发,这些系统利用集体智能来解决超出单个智能体能力的复杂挑战 [914]。人类社会例证了合作、专业化和分布式决策如何显著增强集体解决问题的有效性。类似地,多智能体系统采用这些策略,集成专门的智能体以协作方式处理错综复杂的任务。集体智能的基本原则——[915] 提出的“群体智慧”(Wisdom of Crowds)——表明多样化、独立的智能体通常能产生优于单一专家的决策,这直接支撑了多智能体系统的设计理念。认知理论,如 Minsky 的心智社会(society of mind)[17] 和心智理论(theory of mind)[916, 917],通过提出智能源于专门单元之间的结构化互动,进一步强化了这一范式。

最近,大型语言模型(大语言模型)的进步为协作与进化的多智能体系统(基于大语言模型的多智能体系统, LLM-MAS)带来了新的可能性。受益于强大的推理、规划和决策能力,这些模型使得创建复杂的、反映人类社会合作与适应特征的多智能体系统架构成为可能。基于大语言模型的多智能体系统中的智能体通常承担不同的身份和角色,反映了类似人类的劳动分工和专业化协作。通过采用结构化通信、动态知识共享和协调决策,这些系统模拟人类社会动态以实现共同目标。此外,基于大语言模型的多智能体系统本质上是进化的;智能体通过互动、反馈和迭代学习不断适应和改进,从而随着时间的推移提高系统性能。路线图 在本章中,我们系统地考察了基于大语言模型的多智能体系统这一新兴领域,特别关注其协作机制和进化能力。我们首先在第 13 章中研究不同的系统目标如何塑造智能体的角色、行为模式和协作策略。接下来,在第 14 章中,我们分析各种通信结构,包括促进有效的智能体-智能体和人-智能体通信的交互协议。此外,我们在第 15 章中探讨协作决策方法论以及智能体如何利用其独特的专业知识和视角,并在第 16 章讨论集体智能和进化机制。最后,在第 17 章中,我们讨论进化过程,重点介绍自适应学习方法、持续知识共享以及共同增强多智能体系统性能的迭代改进机制。通过这次全面的调查,我们确定当前的成就,讨论现有的挑战,并为协作与进化智能系统指明有前景的研究方向。


图 12.3: 基于大语言模型的多智能体系统分类法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值