LLM4SR：关于科学研究的大语言模型综述

25年1月来自 Texas Dallas 分校的论文“LLM4SR: A Survey on Large Language Models for Scientific Research”。

近年来，大语言模型 (LLM) 的快速发展改变科学研究的格局，为研究周期的各个阶段提供支持。本文系统地探讨 LLM 如何彻底改变科学研究过程。LLM 在研究的四个关键阶段发挥独特作用：假设发现、实验规划和实施、科学写作和同行评审，如图所示。本文全面展示特定任务的方法和评估基准，确定当前的挑战并提出未来的研究方向。

请添加图片描述

科学研究流程，是启蒙运动在系统探究方面所取得成就的证明 [17, 58, 58]。在这种传统范式中，科学研究涉及一系列明确的步骤：研究人员首先收集背景知识，提出假设，设计和执行实验，收集和分析数据，最后通过经过同行评审的手稿报告研究结果。这个循环过程导致现代科学技术的突破性进步，但它仍然受到人类研究人员固有的创造力、专业知识以及有限的时间和资源限制。几十年来，科学界一直试图通过自动化科学研究的各个方面来增强这一过程，旨在提高科学家的生产力。早期的计算机辅助研究可以追溯到 20 世纪 70 年代，引入Automated Mathematician [74, 75] 和 BACON [71] 等系统，这些系统展示机器在协助定理生成和经验定律识别等专门研究任务方面的潜力。最近，AlphaFold [62] 和 OpenFold [4] 等系统已成为自动化特定研究任务的开创性努力典范，显著加快各自领域的科学进步速度，速度提高数千倍。然而，直到基础模型的出现和大语言模型 (LLM) 的近期爆炸式增长 [2, 154]，跨多个研究领域的全面人工智能辅助的愿景，才成为现实 [190]。

近年来，LLM 取得显著进步，改变了人工智能和自然语言处理 (NLP) 的各个领域。这些模型，例如 GPT-4 [2] 和 LLaMA [154]，在理解、生成和与人类语言交互方面，树立了标杆。它们的能力通过海量数据集和创新架构得到增强，现已超越传统的 NLP 任务，扩展到更复杂和特定领域的挑战。特别是，LLM 处理海量数据、生成类似人类的文本和协助复杂决策的能力引起科学界的极大关注 [92, 141]。这些突破表明，LLM 有可能彻底改变科学研究的开展、记录和评估方式[156, 165, 174]。

本文的结构如下所示：

请添加图片描述

在“科学假设发现 LLM”这一领域出现之前，最为相关的研究领域是“基于文献的发现”和“归纳推理”。

科学发现

使用 LLM 生成新的科学假设是一个新的研究课题，主要源自两个相关的研究领域，即“基于文献的发现”和“归纳推理”。

基于文献的发现

基于文献的发现 (LBD) 最早由 Swanson [151] 提出。其核心思想是“如果独立创建的片段在逻辑上相关但从未被检索、汇总和解释，则知识可以是公开的，但未被发现。”因此，如何检索可以汇总以创建新知识的公共知识，仍然是一个挑战。

Swanson [151] 提出 LBD 的经典形式化，即“ABC”模型，其中如果两个概念 A 和 C 都与论文中的某个中间概念 B 同时出现，则假设它们是关联的。最近的研究使用词向量 [155] 或链接预测模型 [152、160、171] 来发现概念之间的联系以构成假设。

然而，经典的 LBD 方法没有对人类科学家在构思过程中考虑的背景进行建模，并且仅限于预测离散概念之间的成对关系 [47]。为了克服这些限制，Wang [159] 首次尝试将 LBD 置于自然语言上下文中以约束生成空间，并且使用生成的句子作为输出，而不是像传统 LBD 那样只预测关系。

LBD 的另一个限制是，它长期以来被认为仅适用于非常具体的、狭窄的假设类型 [159]。然而，最近的科学发现进展表明，LBD 可能具有更广泛的适用范围。特别是，Yang [174] 和 Yang [176] 与社会科学和化学研究人员进行广泛的讨论，发现大多数现有的社会科学和化学发表的假设（而不仅仅是狭窄类型的假设）都可以用 LBD 模式来制定。这可能预示着未来社会科学和化学领域中即将发表的假说，也可能来自于现有知识的（正确的）联系和联想。

归纳推理

归纳推理是从具体的“观察”中寻找具有广泛适用范围的一般“规则”或“假设”[175]。例如，地心说、日心说和牛顿万有引力定律，都是基于对恒星和行星运动的“观察”而提出的“规则”。科学发现是一项极其困难的归纳推理任务，每一条“规则”都是一个新的科学发现。

科学哲学界从归纳推理中总结“规则”的三个基本要求[113]，即（1）“规则”不应与“观察”相冲突；（2）“规则”应该反映现实； (3)“规则”应呈现一种通用模式，能应用于比“具体”观察更大的范围，涵盖观察中不存在的新信息。此前归纳推理研究主要由“归纳逻辑编程”社区 [26] 进行，该社区使用形式语言和符号推理器。Yang [173] 首次在自然语言处理领域研究生成归纳推理，即利用语言模型从具体的自然语言观察中生成自然语言规则，引入科学哲学界对归纳推理的要求。受语言模型倾向于生成模糊而非具体规则的经验启发，他们额外提出第四个要求：（4）“规则”要清晰、足够的详细。第四个要求可能由于太过明显而被科学哲学界忽视。受这些要求的启发，Yang [173] 设计一种先-过度生成-后-过滤的机制，利用语言模型先生成许多初步规则，然后过滤掉那些不满足要求的规则。这些方法用自我改进来代替过滤，并使用更多的推理步骤来获得更好的规则 [120, 163, 191, 194]。然而，这一系列工作试图归纳的“规则”，要么是已知知识，要么不是科学知识而是合成的模式。

Yang [174] 首次尝试将经典的归纳推理任务设置（发现已知/合成知识）扩展到真实的科学发现设置：利用 LLM 从公开的网络数据中自主发现有效的社会科学科学假设。具体来说，他们收集新闻、商业评论和维基百科上关于社会科学概念的页面作为发现假设的网络数据。
Majumder [107, 108] 进一步提出“数据-驱动的发现”的概念，即利用网络上的所有公共实验数据（以及手头的私人实验数据）跨学科发现假设。他们的动机是，大量公开的实验数据潜力尚未得到充分利用，因此可以从现有数据中发现大量新的科学假设。

方法的发展

在为科学发现而开发的方法中，有一个明确的方法发展轨迹。

主要轨迹

总体而言，这种科学发现方法的发展轨迹，可以看作是将更多关键组件纳入方法中。下表总结认为重要的关键组件，并指出每种方法是否都纳入这些组件。具体来说，它们是“灵感检索策略”、“新颖性检查器”、“有效性检查器”、“清晰度检查器”、“进化算法”、“多重灵感的利用”、“假设排序”和“自动研究问题构建”。这里，每个“关键组件”都是指一种详细而独特的方法，已被证明对科学发现任务有效。排除可能直观上似乎有帮助但不清楚概念中的特定方法如何有效完成这项任务的广泛一般概念（例如，工具使用）。接下来，介绍这些关键组件。对于每个关键组件，用一两段话来简要概述，总结其发展轨迹。

请添加图片描述

灵感检索策略。除了依赖背景知识外，基于文献的发现 (LBD) 还有助于检索其他知识作为制定新假设的灵感来源。SciMON [159] 首次将 LBD 的概念引入发现任务，表明新知识可以由现有知识的联系组成。至关重要的是，灵感不应该是之前已知与背景相关的，或者至少不应该以已知方式与背景相关联 [176]。否则，该假设就不是新颖的。

受经典 LBD 形式化中的“ABC”模型启发，给定背景知识，SciMON 检索语义相似的知识、知识图谱邻点和引用图邻点作为灵感。具体而言，如果两个知识来自 SentenceBERT [127] 的嵌入具有较高的余弦相似度，则它们被识别为“语义相似”；他们构建的知识图谱遵循“[方法、用途、任务]”格式。 ResearchAgent 严格遵循“ABC”模型，构建概念图，其中链接表示两个连接的概念节点之前曾出现在同一篇论文中。它检索与概念图上背景概念相关的灵感概念（概念共现）。Scideator 根据语义匹配（语义学者 API 推荐）和概念匹配（包含同一主题、同一子领域和不同子领域相似概念的论文）检索灵感论文。SciPIP [164] 从语义相似的知识（基于 SentenceBERT）、概念共现和引用图邻点中检索灵感。它提出过滤方法来滤除概念共现检索中无用的概念。

与选择语义或引用图邻点作为灵感不同，SciAgents 随机抽取另一个与引用图中背景概念（通过长路径或短路径）相关的概念作为灵感。
MOOSE [174] 提出使用 LLM 选择的灵感：给定研究背景和上下文中的一些灵感候选，并要求 LLM 从候选中选择研究背景的灵感。然后 MOOSE-Chem [176] 也采用它。MOOSE-Chem 假设在对数亿篇科学论文进行训练后，LLM 可能已经具备一定水平的能力，可以识别背景的灵感知识，从而构成新知识发现。MOOSE-Chem 通过注释 2024 年发表的 51 篇化学论文（只是在 2024 年在线），分析这一假设，并查看采用截至 2023 年训练数据的 LLM 是否可以在仅给出背景的情况下检索注释的灵感。他们的结果显示检索率非常高，表明该假设可能基本正确。然后，Nova 也采用了 LLM 选择的灵感，其动机是利用 LLM 的内部知识来确定对新想法有用的知识应该能够超越传统基于实体或关键字的检索方法。

反馈模块。下一个关键组成部分是在新颖性、有效性和清晰度方面对生成的假设进行迭代反馈。这三个反馈首先由 MOOSE 提出，其动机是归纳推理中对假设的要求 [113, 173]。这三个方面足够客观，可以给出反馈，并且每个方面对于一个好的假设都是必不可少的。

• 新颖性检查器。生成的假设与现有文献相比应该是新的发现。当假设趋向于与现有假设相似时，增强其新颖性的反馈可能有利于假设的制定。现有的新颖性反馈方法都是基于 LLM 的。一般来说，有三种方法可以提供新颖性反馈。第一种方法根据相关调查 (MOOSE) 评估每个生成的假设；第二种方法迭代检索相关论文进行比较 (SciMON、SciAgents、Scideator、CoI)；第三种方法直接利用 LLM 内部知识进行评估 (Qi，ResearchAgent，AIScientist，MOOSE-Chem，VirSci)。

• 有效性检查器。生成的假设应该是有效的科学/工程发现，能够准确反映客观世界 [113]。真正的有效性反馈应该来自实验结果。然而，对每个生成的假设进行实验既费时又费钱。因此，目前，有效性反馈几乎完全依赖于 LLM 或其他经过训练的神经模型启发式方法。例外是 FunSearch、HypoGeniC、LLM-SR 和 SGA。具体来说，FunSearch 是为数学问题生成代码的。编译器和验证代码是自然高效且有效的验证器；HypoGeniC 和 LLM-SR 专注于数据驱动的发现，这意味着它们可以访问可用于检查与每个生成假设的一致性观察示例；SGA 创建一个虚拟物理模拟环境来模拟真实实验。然而，有效性检查器仍然是科学发现界面临的重大挑战。未来的研究方向包括机器人和自动化实验室，它们可以自动执行湿-实验室实验（例如，生物学和化学实验）来验证生成的假设。对于与计算机科学相关的假设，未来的研究方向可能是更先进的自动代码实现系统。

• 清晰度检查器。生成的假设在传达信息方面应该足够清晰，并提供足够的细节 [173]。然而，LLM 往往会生成细节不足的假设 [159]。因此，提供清晰度方面的反馈以完善假设并详细扩展它，将是有益的[174]。当前的方法（MOOSE，ResearchAgent，MOOSE-Chem和VirSci）都采用LLM来提供清晰度的自我评估。

进化算法。进化算法是受生物进化原理启发的优化算法一个子集。它假设存在一个“环境”，不能适应它的实体将被“淘汰”，超级实体将从环境具有一定适应性实体之间特征“重组”中进化而来（这个过程也称为“突变”）。

这个关键组成部分很重要，因为（1）真实的实验评估和对生成假设的启发式评估自然地充当“环境”。（2）科学假设发现的本质，从根本上可以看作是从已知知识输入突变为未知但有效的知识。尽管目标相似，但当前的科学发现方法以不同的方式利用进化算法。

FunSearch 首次将进化算法引入到科学发现任务中。他们采用基于岛屿的进化算法，每个岛屿都是一组相似的方法，每个岛屿不断变异为新的假设。在某些时间间隔内，一些排名最低的岛屿被“淘汰”，每个岛屿中表现最好的假设，组成在一起构成新岛屿，其鼓励岛屿之间优点的“重组”。LLM-SR 采用类似的基于岛屿进化算法。

SGA 将其用作“进化搜索”，即在每次迭代中生成多个后代并保留最佳选择。他们还采用进化交叉，其中 LLM 从各种过去的实验中生成新的假设以进行更好的探索。

MOOSE-Chem 将其设计为“进化单元”，以更好地关联背景知识和灵感知识。具体来说，给定背景和灵感知识，他们首先生成多个独特的假设来将两者关联起来。然后分别完善每个假设，最后重新组合完善的假设，以更好地将背景和灵感知识整合成一个有凝聚力的假设。它鼓励来自相同输入的不同突变变体，并从每个突变变体中收集优势。

利用多种灵感。这里讨论的“利用多种灵感”（LMI）组件是关于明确识别几种灵感，以便这些已识别的灵感将全部利用到最终假设中（例如，以顺序方式）。这很重要，因为不同的方法有不同的原因。

MOOSE-Chem 是第一个引入此组件的，其动机是观察到许多学科（例如化学和材料科学）通常需要多个灵感才能制定完整且可发表的假设。具体来说，他们将看似无法解决的问题 𝑃（假设 | 研究背景）分解为许多更小、更实用和可执行的步骤。他们通过为分解制定数学证明来实现这一点。一般来说，较小的步骤包括确定起始灵感，根据背景和灵感制定初步假设，找到另一个灵感来解决初步假设中的空白，然后用新的灵感制定更新的假设等等。他们利用多个灵感的目标，是重新发现在《自然》或《科学》等高影响力期刊上发表的化学和材料科学假设。

除了 MOOSE-Chem，Nova 还以连续的方式检索多个灵感，但目标不同，即产生更多样化和新颖的研究假设。他们的动机源于 IGA 的实验结果，即生成假设的多样性趋于饱和。他们认为其中一个主要原因，是输入的背景信息相同，而通过引入灵活的输入，结合不同的灵感集可以大大缓解这个问题。

假设排序。这个关键部分是关于对生成的假设进行全面排序。这很重要，因为 LLM 可以在短时间内生成大量假设，而验证每个假设的真实实验室实验既耗时又费钱。因此，让科学家知道应该先测试哪个假设将非常有益。一些方法（例如 MOOSE）采用自动评估方法来提供对生成假设的初步了解。自动评估方法自然可以用于排名，但上表仅关注方法论部分（但不关注自动评估部分）中如何使用排名。

大多数方法采用 LLM 的评分作为奖励值，可用于排名（MCR [145]、AIScientist、MOOSE-Chem、CycleResearcher）。FunSearch 专注于代码生成问题，因此可以通过运行并检查结果直接精确评估生成的代码。ChemReasoner [146] 对特定于任务的图神经网络模型进行微调以获得奖励。HypoGeniC [193] 和 LLM-SR [140] 专注于数据驱动的发现，这意味着他们可以访问可用于检查与生成假设的一致性观察示例，其中一致示例的数量可用作排名的奖励值。

与直接预测奖励分数不同，IGA 进行成对比较，因为他们发现当直接要求预测最终分数或决策时，LLM 的标定效果很差，但在成对比较中判断哪篇论文更好时，可以实现不平凡的准确性。受 IGA [141] 的启发，CoI [77] 提出一种成对自动评估系统，名为 Idea Arena。Nova [49] 也采用成对自动评估方法。

自动研究问题构建。这个关键组件是关于研究问题的自动构建，以便自动化科学发现方法可以将其用作输入来发现假设。它表明 LLM 系统在科学发现中的不同角色：没有它，LLM 充当copilot，依靠研究人员提出好的研究问题；有了它，系统就会以“全自动驾驶”模式运行，能够在没有人工输入的情况下独立发现。“全自动驾驶”模式最早由MOOSE 引入，被定义为科学发现的“自动化”设置。具体来说，他们采用基于LLM的智体不断搜索与学科相关的网络语料库以寻找有趣的研究问题。AIScientist 利用起始代码实现作为输入来探索研究方向。MLR-Copilot 通过分析输入论文中的研究差距来寻找研究方向。SciAgents 和 Scideator 通过直接根据概念配对生成假设来跳过研究问题。VirSci 通过利用基于 LLM 的科学家智体进行头脑风暴，来生成研究问题。CoI 通过收集方法的发展路线然后预测下一步，来寻找研究问题。Nova 直接从输入论文和常见想法提议的模式中，生成种子想法，跳过研究问题构建步骤。

其他方法

与“主要轨迹”方法不同的方法，其本身非常多样化，侧重于科学发现的不同方面。例如，Dong [30] 利用了一种独特的方法，Pu [118] 专注于 HCI，Liu [96] 也考虑实验结果的整合，Li [80]，Weng [167] 利用评论作为偏好学习来微调假设提出者模型。

Dong [30] 尝试使用 GPT-4 来解决非常具有挑战性的研究问题：“是否 P = NP 或者不”。他们提出“苏格拉底式推理”，鼓励 LLM 递归地发现、解决和整合问题，同时促进自我评估和改进。他们的方法，在试图证明一个非常具有挑战性的现有假设时可能会有用。

IdeaSynth [118] 是一个研究创意开发系统，它将创意概念表示为画布上的链接节点。在人机交互场景中研究其效果。他们通过实验室研究发现，与使用强大 LLM 基线的人类参与者相比，使用 IdeaSynth 的人类参与者可以探索更多替代想法，并以更多细节扩展初始想法。

Liu [96] 首次尝试将基于文献的发现和数据驱动的发现统一起来。给定一组初始实验结果，它检索相关文献并采用迭代细化方法不断改进假设，使其与实验结果一致并利用从检索文献中得出的发现。

Weng [167] 提出一个包括 CycleResearcher 和 CycleReviewer 的双系统，其中 CycleResearcher 负责构思和撰写论文，CycleReviewer 负责对撰写的论文进行评分。双系统具有协同作用，CycleReviewer 的分数可以组成偏好数据来训练 CycleResearcher。双系统只关注构思和撰写论文，跳过实验规划和实施。

Li [80] 提出微调 LLM 成为更好的创意生成器，并引入一种新框架，该框架采用结合监督微调 (SFT) 和可控强化学习 (RL) 的两阶段方法。他们专注于可行性、新颖性和有效性的维度。维度控制器可以动态调整生成过程。

基准

总体而言，自动化科学发现中的任务可分为“基于文献的发现”和“数据驱动的发现”。研究人员分别为每项任务设计不同的基准。

基于文献的发现

基于文献的发现通常是将现有出版物中的知识（片段）联系起来，并将它们关联起来以创建新知识。在此过程中，首先要掌握的知识来自研究背景。研究背景可视为由两个部分组成：（1）研究问题，（2）背景调查，讨论研究问题的最新方法或知识。有了研究背景中的起始知识，其他要连接的知识通常是通过搜索现有出版物获得的。这里将其他知识称为“灵感” [159, 174]。然后将研究背景和检索到的灵感联系起来，以创建“假设”。

下表总结基于文献的发现基准，旨在获得新的科学发现。关键组成部分包括研究问题、背景调查、灵感识别和假设。假设来自“摘要”部分[159]、“方法论”部分[174, 176]或“未来工作”和“局限性”部分[68]。表中还包括数据集的大小（分析的论文数量）、论文的学科以及论文的出版日期。

请添加图片描述

出版日期对于缓解/避免数据污染问题很重要。原因是主要目标之一是重新发现基本假设，日期可以指示要使用哪些 LLM 进行重新发现（其训练数据应早于日期以避免潜在的数据污染问题）。

一些基准可用于训练，因为它们规模很大 [119, 159]，而一些基准主要用于评估，因为它们是由博士生注释的[68, 174, 176]。

数据驱动的发现

Majumder [107] 提出“数据驱动的发现”的概念。这里的“数据”指的是实验结果。他们的动机是，鉴于对大量（公共和私人）现有在线实验结果的“观察”，LLM 可能能够找到这些数据的一般模式，其中一般模式可能是一个新的研究假设。鉴于具体观察和一般假设之间的关系，“数据驱动的发现”与归纳推理任务非常相关，其中观察空间是网络上完整的公开实验结果和手头的私人实验结果。

DiscoveryBench [108] 是第一个数据驱动的发现基准。它包括从 20 多篇已发表论文和 903 个合成任务中手动提取的 264 个发现任务。任务的输入包括一个研究问题和一组实验数据。目标是用一个可以由实验数据支持的假设来回答研究问题。它还为生成的假设引入一种结构化形式，即假设应由三个部分组成：上下文、变量和关系。具体来说，假设是关于上下文下两个变量之间的关系。

DiscoveryWorld [57] 是第一个具有虚拟环境的发现基准。主要动机有两个：（1）现实世界的实验成本高昂，需要大量的领域专业知识；（2）从特定于任务的细节中抽象出来鼓励开发更通用的发现方法。为了应对这些挑战，它为智体建立一个虚拟环境来发现假设。它包括 120 个不同的挑战任务，其中的假设反映世界的真实模式。

评估发展趋势

科学发现任务的评估方法是多种多样的。可以说，几乎每篇论文都提出一种使用不同评估方法的新方法。然而，它们的指标表现出明显的交集，在这些方法中可以观察到评估方法的一些新趋势。

评估标准的交集是“新颖性”、“有效性”、“清晰度”和“重要性”。一些较少使用的评估标准包括“相关性”、“趣味性”和“有用性”。有效性的另一个名称是“可行性”。它们可能在许多情况下互换使用。

“有效性”是指发现的科学知识是否准确反映客观世界，而“可行性”则涉及工程发现的实用性。“有用性”是一种主观评价，基于发现系统的目标是充当研究人员 copilot 的想法；因此，研究人员认为它的有用性很重要。

在评估者选择方面，评估方法可分为基于 LLM 的评估和基于专家的评估。在社会科学领域，LLM 的直接评估与专家评估显示出较高的一致性 [174]。然而，在化学等自然科学学科中，人们认为 LLM 缺乏提供可靠评估的能力 [146]。专家评估通常被认为是可靠的。然而，在化学等具有挑战性的领域，即使是专家的直接评估也可能缺乏足够的可靠性 [176]。这是由于 (1) 学科的复杂性；(2) 研究主题的细微变化可能需要完全不同的背景知识进行评估，而专家通常有专门的研究重点，可能无法涵盖相对可靠评估所需的全部知识。

根据对参考的需求，评估方法可分为直接评估和基于参考的评估。由于对直接评估的可靠性担忧，基于参考的评估作为一种替代方案 [68, 108, 176]，它从生成的假设中提到的基本事实假设中计算关键成分。

此外，除了直接为生成的假设分配标量评估分数外，Si[141] 还提出基于比较的评估，以减轻基于 LLM 直接评分评估的无能：要求 LLM 评估者不断比较生成的假设对，直到可以进行排序。它可以用于比较两种方法生成假设的质量，但可能无助于判断假设的绝对质量。

然而，最终的评估应该只能通过真实的（湿-实验室）实验。它对机器人技术和自动实验实施领域提出挑战。

发现假设的主要进展/成就

Yang [174] 首次证明 LLM 能够生成有效的科学假设，这已通过专家评估得到证实。他们找到三名社会科学博士生来直接评估生成社会科学假设的新颖性和有效性。然后 Si [141] 通过聘请 100 多名 NLP 研究人员，首次对 LLM 生成的假设进行大规模专家评估。他们得出一个具有统计意义的结论，即 LLM 可以产生比人类研究人员更新但有效性略低的研究假设。然后，Yang [176] 表明，直到 2023 年 10 月可用数据训练的 LLM，基于此的框架可以重新发现 2024 年在《自然》、《科学》或类似水平上发表的许多化学和材料科学假设主要创新（仅在 2024 年在线提供）。

挑战和未来工作

挑战

第一，科学发现是寻找尚未通过湿-实验室实验验证的新知识。在化学等某些学科中，即使是专家对生成的新假设的评估也不够可靠。这导致需要进行自动化实验来验证大规模机器生成的假设。

第二，此外，当前的科学发现方法高度依赖于现有 LLM 的能力。在通用任务上具有更好能力的 LLM ，通常也能发现质量更好的假设 [174]。因此，基于 LLM 的发现方法，可能存在性能上限，受到最先进 LLM 能力的限制。然而，如何增强 LLM 在科学发现任务上的能力，在很大程度上（如果不是完全）不清楚。

第三，科学发现是否有足够的内部推理结构尚不清楚：当前的研究严重依赖从高质量知识源（例如文献）中检索信息作为产生假设的灵感。但目前还不清楚是否还有其他内部推理结构可以帮助这一过程。

最后，建立准确且结构良好的基准高度依赖于专家。然而，专家编写的基准规模通常非常有限。目前还不清楚应该如何扩大一个准确且结构良好、面向发现的基准。

未来的工作

未来工作的第一步，是增强自动化实验执行，因为它仍然是检验假设有效性的最可靠方法。这个过程可能因学科而异。在计算机科学中，瓶颈可能是编码能力，尤其是编写大型系统的能力。在化学或生物学中，瓶颈可能在于机器人进行实验的方法[14]。

未来工作的第二个方向，是增强 LLM 生成假设的能力。目前，如何提高这种能力还不是很清楚。这些方面可能包括训练数据收集方法和训练策略。

未来工作的第三条路线，是研究科学发现过程的其他内部推理结构。这可能需要跨学科的努力，涉及科学哲学（也称为科学科学）[36]。
未来工作的第四个方面，是研究如何利用 LLM 自动收集准确且结构良好的基准。

除了生成假设之外，LLM 还在科学研究中被越来越多地用于自动化实验设计和简化工作流程。LLM 拥有全面的内部世界知识，使其能够在现实世界中执行明智的操作，而无需在特定领域数据上进行训练。为了最大限度地发挥其潜力，LLM 采用基于智体的方式进行设计，具有两个关键属性 [64]：模块化和工具集成。模块化确保 LLM 可以与外部系统（如数据库、实验平台和计算工具）无缝交互，而工具增强框架使 LLM 能够充当工作流中的中央控制器，与用于数据检索、计算和实验控制的专用模块交互。

优化实验设计

LLM 正在通过实现更高效、更灵活的科学研究工作流程来改变实验设计流程。它们处理和分析大量数据集的能力使研究人员能够分解复杂任务、选择最佳方法并增强实验的整体结构。

任务分解涉及将实验分解为更小、更易于管理的子任务，这一过程通常是现实世界研究的复杂性所必需的，以确保与特定研究目标保持一致 [55]。许多研究 [14、15、52、125、136、168] 展示 LLM 如何通过定义实验条件和指定期望输出来简化复杂问题。例如，HuggingGPT [136] 利用 LLM 将用户查询解析为结构化任务列表，同时确定执行顺序和资源依赖关系。类似地，CRISPR-GPT [52] 通过促进选择合适的 CRISPR 系统、设计向导 RNA、推荐细胞递送方法、起草方案和规划验证实验，实现基于 CRISPR 基因编辑实验设计的自动化。ChemCrow [15] 采用迭代推理和动态规划，使用结构化的“思考、行动、行动输入、观察”循环 [177] 根据实时反馈改进其方法。多 LLM 系统（例如 Coscientist [14] 和 LLM-RDF [131]）进一步利用专门的智体从文献中提取方法，将自然语言描述转换为标准化协议，为自动化平台生成执行代码，并在执行过程中自适应地纠正错误。

上述研究中经常采用基于提示的高级技术，例如上下文学习、思维链 [166] 和 ReAct [177]，以提高 LLM 辅助工作流程中实验规划的可靠性和准确性。此外，LLM 还能够通过反思和改进来增强实验设计 [106, 139]，这一过程使它们能够不断评估和改进实验计划。例如，通过模拟专家讨论，LLM 参与协作对话 [81]，挑战假设，并通过迭代分析改进其输出 [90]。这种方法反映现实世界的科学问题解决，其中专家意见之间的差异促进对问题空间的更深入探索，并通过严格的辩论和综合不同的观点达成共识。

自动化实验过程

LLM 通过自动化实验过程中重复且耗时的任务，彻底改变科学研究。这种自动化显著提高生产力，使研究人员能够将数据准备、实验执行、分析和报告等劳动密集型流程委托给基于 LLM 的系统 [158]。

数据准备

数据准备是研究中劳动最密集的方面之一，包括清理 [21, 185]、标记 [153, 196] 和特征工程 [46] 等任务。大语言模型 (LLM) 可以自动化这些过程，尤其是在处理大型数据集时，手动数据管理效率低下。此外，在难以获得数据的情况下，LLM 可以直接合成实验数据 [82, 85, 98]。例如，在社会科学中，对人类受试者进行实验通常既昂贵又不道德，Liu [98] 设计一个沙盘来模拟社交环境，并部署多个智体 (LLM) 来相互交互。这种方法允许研究人员收集智体社交互动的数据以供后续分析。

实验执行和工作流自动化

为了实现科学研究中实验工作流的自动化，基于 LLM 智体可以通过预训练 [95, 128]、微调 [35, 44] 和工具增强学习相结合的方式获得特定于任务的能力。对大量数据集进行预训练可提供基础知识，而对特定域数据集进行微调则可以针对目标科学应用完善这些知识。为了增强任务执行能力，LLM 通常与特定域的知识库 [14, 15, 157] 或预配置的工作流 [14, 99] 相结合。高级提示技术（如上下文学习和思维链提示 [99, 179]）使 LLM 能够快速适应新的实验方案。此外，通过任务特定的反馈循环进行迭代调整，LLM 能够根据实验目标完善其输出 [124, 179]。
基于这些原则，LLM 在跨不同学科实验工作流自动化中发挥着多种作用。在化学领域，LLM 化学智体 ChemCrow [15] 利用 18 位专家设计的工具自主规划和执行复杂的化学合成，连接计算领域和实验领域。类似地，Coscientist [14] 将 LLM 与实验室自动化相结合，以优化钯催化合成等反应。LLM 还被用于进化搜索策略，以探索广阔的化学空间 [157]，从而能够在减轻实验负担的同时识别候选分子。Ramos [124] 将自然语言输入与贝叶斯优化相结合，用于催化剂合成，简化迭代设计周期。此外，LLM 已用于假设情景测试和反应设计，通过假设预筛选最大限度地减少实验迭代 [145, 146]。在药物发现方面，ChatDrug [99] 集成提示、检索和领域反馈模块，以促进药物编辑，而 DrugAssist [179] 通过人机对话迭代优化分子结构。在生物和医学研究中，ESM-1b [128] 和 ESM-2 [95] 等模型可编码蛋白质序列，捕获预测任务的结构特性，例如二级和三级结构预测，从而无需进行劳动密集型实验。通过对蛋白质家族的 LLM 进行微调，Ferruz & Höcker [35] 生成高度发散但功能齐全的蛋白质序列。此外，He [44] 引入一种用于从头设计 SARS-CoV-2 抗体的抗体生成 LLM，实现特异性和多样性，同时减少对天然抗体的依赖。

数据分析和解释

除了自动执行实验外，LLM 还通过生成自然语言解释和构建有意义可视化，来协助数据分析，这对于解释复杂的数据集和确保得出的见解可访问且可操作，至关重要 [143]。传统上，数据分析需要广泛的统计专业知识、手动计算和大量实验结果的解释。 LLM 通过自动执行统计建模和假设检验等任务来简化这一过程。例如，Li [79] 证明 LLM 可以充当建模器，根据真实世界数据提出、拟合和改进概率模型，同时还通过后验预测检验等技术对模型性能提供关键反馈。此外，LLM 擅长发现文本数据中隐藏的模式、趋势和关系。在社交媒体数据分析中，LLM 提供对公众情绪和新趋势的洞察 [172]；在环境数据解释中，它们有助于提高对环境科学的理解和决策能力 [114]。此外，它们在主题分析中也发挥着重要作用 [27, 126]，有助于识别定性数据中的主题和模式。它们的应用也扩展到金融数据分析，在那里它们增强预测和风险评估能力 [188]。AutoGen [168] 提供一个通用框架，允许使用多个可定制智体 (LLM) 创建不同的应用程序。这些智体可以通过自然语言和代码进行交互，支持广泛的下游任务，如数据建模和数据分析[61]。

基准

基准对于评估 LLM 如何有效地支持实验工作流程的各个方面至关重要。虽然许多基准并非专门为 LLM 辅助实验实施而创建，但它们足够灵活，可以应用于这些任务。例如，MLAgentBench [54] 通过帮助分解复杂的研究任务来涵盖任务分解，通过自动化数据加载和转换等流程来涵盖数据处理，通过优化机器学习实验执行来涵盖工作流管理。

这些基准提供不同的场所，因此方法各不相同。评估方法包括任务成功率、准确性和执行一致性以及与人类基准的比较。这些差异凸显 LLM 可以集成到研究过程中的多种方式。下表列出更多详细信息：LLM 辅助实验规划和实施的基准。ED = 优化实验设计，DP = 数据准备，EW = 实验执行和工作流自动化，DA = 数据分析和解释。学科中的“通用”意味着基准不是为特定学科设计的。

请添加图片描述

挑战和未来工作

挑战。使用 LLM 进行实验规划和实施的挑战，既来自其内在的局限性，也来自其在特定领域任务中的应用。一个根本的限制是它们的规划能力。正如 Kambhampati [64] 所阐明的那样，自主模式下的 LLM 通常无法生成可执行规划。他们容易产生幻觉，这可能导致不合理的规划、偏离任务提示或无法遵循复杂的指令 [55]。提示稳健性在多阶段实验环境中提出另一个关键挑战。提示措辞的细微变化，即使传达相同的意图，也会导致整个规划和执行过程中的指导不一致 [195]，从而可能影响实验结果。此外，自回归 LLM 的处理速度慢，会阻碍迭代和多步骤实验计划中的实时反馈，从而限制其效率。特定于应用的挑战，包括难以适应专业角色，因为 LLM 难以模拟特定领域的科学专业知识和认知过程，而这些对于跨研究领域的普遍性至关重要 [167]。例如，某些实验可能需要模拟道德敏感或容易出错的场景，这通常与 LLM 中嵌入的安全一致价值观相冲突。

未来的工作。未来的研究应通过增强核心模型功能并根据实验任务的独特要求对其进行定制来解决这些挑战。为了减轻幻觉风险，可以将强大的验证机制集成到工作流程中，例如使用外部声音验证器交叉引用输出 [64] 或采用实时反馈回路动态纠正不准确性 [59]。提高提示的鲁棒性可能涉及开发自适应系统，监控和修改提示结构，响应上下文变化，确保规划阶段的一致性。可以创建针对多步推理优化的更快、精简 LLM 版本或将 LLM 与更小、特定于任务的模型相结合，平衡速度和准确性的混合系统，提高效率。为了更有效地适应角色，使用高质量的特定领域数据集对 LLM 进行微调，或开发模块化框架，可以更精确地模拟专门的科学推理。此外，设计自适应对齐协议，可能允许 LLM 在解决特定实验目标时安全地模拟伦理上复杂的场景。

LLM 在科学论文写作的三个关键领域：引文文本生成、相关工作生成以及起草和写作。

引用文本生成

引用文本生成任务旨在根据引用论文的上下文，为一系列待引用论文生成准确的文本摘要。LLM 通过提供丰富的上下文理解和连贯性，采用一系列方法来提高准确性和可用性，在引用文本生成的各个方面发挥着关键作用。Xing [170] 的初步研究使用一个指针生成器网络，该网络可以基于交叉注意机制从手稿和被引论文的摘要中复制单词来生成引文文本。Li & Ouyang [88] 提示 LLM 生成自然语言描述，强调引用网络中论文对之间的关系。另一方面，AutoCite [161] 和 BACO [40] 等模型通过采用多模态方法扩展这项工作，将引用网络结构与文本上下文相结合，以生成上下文相关且语义丰富的引文文本。此外，Gu & Hahnloser [43]、Jung [63] 允许用户指定引用意图和关键字等属性，将这些属性集成到结构化模板中，并对 LM 进行微调以生成符合其需求的引用文本。

起草和写作

在自动化科学写作领域，LLM 被用于各种任务，从生成特定文本元素到撰写整篇研究论文。对于更具体的写作任务，August [8] 建议生成针对不同受众的可控复杂度科学定义，而 SCICAP [48] 则自动生成科学图形的字幕，从而能够快速准确地描述视觉数据。更全面的系统，如 PaperRobot [160]，引入一种增量起草方法，其中 LLM 帮助根据用户输入组织和起草论文的各个部分。同样，CoAuthor [73] 采用人机协作的方法，其中 LLM 通过生成建议和扩展文本来帮助作者。对于完全自主写作，Ifargan [56] 探索 LLM 如何从数据分析到最终草稿生成完整的研究论文，而 AutoSurvey [165] 则展示 LLM 通过综合和组织现有研究自主撰写综合调查的能力。最后，AI Scientist [103] 和 CycleResearcher [167] 提出一个更广泛的系统，它不仅可以起草科学论文，还可以为整个科学过程做出贡献，包括假设生成和实验设计，这凸显完全自动化科学发现和写作的潜力。

基准

总结自动化科学论文写作系统在三个关键领域的评估方法：引文文本生成、相关工作生成以及起草和写作。下表 4 全面总结每个任务的具体数据集、指标和基准。

请添加图片描述

引用文本生成。ALCE [38] 基准是主要标准。从三个维度对系统进行评估：流畅性、正确性和引用文本质量。ALCE 旨在测试模型在不同领域生成具有准确引用长篇答案的能力。他们的数据集涵盖广泛的问题类型，语料库从维基百科到网络规模的文档集合。CiteBench [37] 是另一个基准，它统一多个现有任务，使用定性和定量指标来标准化对不同设计和领域引文文本生成的评估。

相关工作生成。目前，由于不同研究中的任务定义和简化假设存在巨大差异，因此没有一个基准被普遍认可 [89]。然而，大多数方法都是建立在语料库级数据集上的，常用的科学文章来源包括：ACL 选集网络 (AAN) 语料库 [123]、SciSummNet [178]、Delve [5]、语义学者开放研究语料库 (S2ORC) [102] 和面向引用的相关工作注释 (CORWA) [86]。摘要指标 ROUGE [93] 是自动评估中最常用的指标，一些作品也使用翻译指标 BLEU [115]。此外，人工评估通常会根据五点李克特量表对流畅性、可读性、与目标论文的连贯性以及与所引用作品的相关性和信息量进行评分。

起草和写作。SciGen [111] 基准支持从科学表格中评估推理感知文本生成，突出文本生成中算术推理的挑战。另一个关键基准 SciXGen [22] 评估上下文-觉察的文本生成，重点关注外部信息与生成文本的集成。SciGen 和 SciXGe 都使用 BLUE [115]、METEOR [10] 和 MoverScore [189] 等指标以及人工评估。

挑战和未来工作

挑战。引用文本生成、相关工作生成以及起草和写作方面的挑战，主要来自 LLM 固有的局限性，例如保持事实准确性、确保上下文连贯性以及处理复杂信息。LLM 经常难以应对幻觉 [59]，生成不正确或不相关的引文，并受到它们所依赖的检索系统的限制 [53]。有限的上下文窗口，进一步限制模型管理大量参考文献或全面整合相关文献的能力 [165]，可能导致引用顺序不正确和引文分组不适当。此外，确保科学严谨性并避免依赖肤浅或琐碎的资料仍然是持续存在的障碍，因为 LLM 很难捕捉到学术写作所需的深度和推理能力 [103]。

此外，在学术写作中使用 LLM 会引发重大的道德问题，尤其是关于学术诚信和剽窃的问题 [89]。这模糊作者的界限，因为研究人员可能会将机器生成的文本作为自己的工作呈现。LLM 还可以生成与现有文献非常相似的文本，如果生成的内容可能不够原创，则会增加无意抄袭的风险。使用 LLM 起草论文各部分的便利性可能会破坏学术写作传统上所需的严谨的智力努力，从而可能贬低学术研究所必需的学习过程和批判性思维技能。

未来的工作。为了克服这些挑战，未来的进步应该侧重于改进检索系统和增强模型从各种长背景来源综合信息的能力 [87]。这包括开发更好的引用验证机制、改进多文档综合，以及引入实时文献发现以使生成的内容保持最新。此外，结合域特定微调和推理感知模型将有助于生成更准确、与上下文相关的科学文本 [111]。对写作过程的细粒度控制（例如调整语气和风格）对于提高 LLM 适应不同学术需求的能力也至关重要 [22, 38, 103]。此外，整合人机循环系统（其中人工监督和干预是写作过程的重要组成部分）可以确保学术作品固有的严谨性和批判性思维得到保留 [89, 109]。最后，为了解决潜在的道德问题，学术界必须为 LLM 的使用制定明确的指导方针和道德标准，以确保学术工作的完整性和原创性。

同行评审是科学研究的基石。将 LLM 整合到同行评审过程中代表着一项重大进步，解决长期存在的挑战，例如评审偏见、标准不一致和工作量不平衡 [42, 117]。这种整合在学术界获得极大的关注，主要计算机科学会议采用 LLM 辅助评审实践就是明证。例如，ICLR 2025 宣布实施基于 LLM 的系统来支持评审员的评估过程。

将 LLM 整合到同行评审中已经发展出两种不同的方法，每种方法都针对评审过程中的特定需求。第一种方法是自动评审生成，它源于处理不断增加的提交量并通过使用 LLM 独立分析研究论文来减少评审员工作量的需求 [66, 182]。这些系统旨在评估提交的多个方面，包括方法验证、结果验证和贡献评估，从而提供全面的评审报告而无需直接人工干预。第二种方法是 LLM 辅助审查工作流程，其开发是为了响应人们的认识，即人类专业知识在学术评估中仍然至关重要，同时承认某些审查任务可以从自动化中受益[69]。这些工作流程将 LLM 作为补充工具，帮助人类审阅者完成耗时但定义明确的任务，例如论文摘要、参考验证和内部一致性检查，同时将关键评估和判断留给人类专家。

这些方法采用多种方法来提高审查效率、一致性和质量。为了系统地评估和改进这些系统，研究界开发专门的同行评审基准，这些基准具有双重目的：提供标准化的训练数据集和建立绩效评估指标。

自动同行评审生成

自动同行评审生成，旨在通过探索 LLM 如何以最少的人为干预生成全面的评审来简化科学评估。通过输入一篇科学文章，这些系统专注于生成完整的同行评审或元评审，采用各种技术来增强反馈的深度、准确性和相关性。

当前的自动同行评审生成方法可分为两种主要策略：单模型和多模型架构。单模型方法，专注于通过复杂的提示技术和模块化设计来优化评审生成过程。这些系统通常采用精心设计的提示来引导模型关注论文的特定方面，例如方法、结果和贡献 [132]。

在单模型范式中，已经提出几种不同的架构方法。CGI2 [184] 超越以前的方法：MetaGen [11]，它使用两阶段的提取摘要和决策感知细化流程；Kumar [67]，开发一种用于联合决策预测和评审生成的神经架构；MReD [135]，后者使用句子级功能标签引入结构控制的生成。在此基础上，CGI2 通过模块化设计实现分阶段的评审流程，首先从论文中提取关键意见，然后总结优缺点，最后在清单指导框架下通过迭代反馈完善这些输出。这个迭代过程增强评论的深度和相关性，但对于涉及高度复杂方法或超出上下文窗口冗长内容的论文可能会有困难。CycleReviewer [167] 采用不同的方法，它使用强化学习实现端到端的评论生成方法，通过反馈循环不断提高评论质量。虽然 CycleReviewer 在提高评论精度和清晰度方面表现出色，但对大量计算资源的依赖可能会限制其可扩展性。同时，ReviewRobot [162] 利用知识图谱系统地识别和构造知识元素，并通过结构化的生成过程将它们转化为详细的评论。 ReviewRobot 表现出卓越的可解释性和基于证据的推理能力，但受到其预定义模板不灵活性的限制。

替代策略，采用多模型架构，代表一种更复杂的方法，即利用多个专门的模型来处理评审过程的不同方面。这种方法有几个优点，包括通过专业知识改进对复杂论文的处理和提高评审质量。Reviewer2 [39] 实现一个两阶段的过程：一个模型生成特定的方面提示，而另一个模型利用这些提示来创建详细、有针对性的反馈。提示生成和评审创建的分离，允许更细致入微和更有针对性的反馈，但由于缺乏集成框架，往往会导致部分或有偏见的评审。为了解决这些限制，SEA [180] 采用单独的模型进行标准化、评估和分析，提供更全面、更平衡的方法。该系统将多个评审统一为一种格式，大大减少反馈中的冗余和不一致。此外，SEA 引入不匹配分数来衡量论文与生成的评论之间的一致性，并结合自我纠正策略以迭代方式提高评论质量。虽然这些功能使 SEA 在一致性和全面性方面超越 Reviewer2，但需要协调多个模型的输出，这增加复杂性。MARG [28] 以专业化为基础，但解决不同的挑战，解决处理超出典型 LLM 上下文限制论文的问题。通过引入多智体框架，MARG 将审查任务分布在多个专门模型上，允许对较长的论文进行全面审查，同时保持对整个文档细节的关注。这种创新方法可确保详细的、针对特定方面的反馈。然而，它带来新的挑战，例如协调各种智体的通信和输出，这增加确保一致性和一致性的难度。

每种架构方法都具有独特的优势，也面临着独特的挑战。单模型方法，受益于更简单的实施和对审查过程更直接的控制，但它们可能难以处理较长或更复杂的论文。多模型架构，提供更大的可扩展性和更好地处理复杂的审查任务，但它们需要仔细的协调并且面临其组件之间潜在的一致性挑战。例如，ReviewRobot 的结构化方法提供可解释性和可操作的见解。尽管如此，它对不断发展的研究领域适应性较差，而 CycleReviewer 的迭代改进提高动态适应性，而无需大量的训练资源。随着该领域研究的进展，将单模型简单性的优势与多模型设计的适应性相结合，为提高评审质量、一致性和全面性提供一条有希望的途径。

LLM 辅助同行评审工作流程

与完全自动化的评审生成不同，LLM 辅助同行评审工作流程专注于增强人类评审员的能力，而不是取代他们。最近的研究强调这种人机协作方法在学术同行评审中的关键重要性。[12, 31, 133] 的研究强调，虽然 LLM 可以提高效率，但人类监督对于维护道德标准和评审完整性仍然至关重要。像 AgentReview [60] 这样的系统在实践中展示这种协同作用，其中 LLM 生成初步见解，然后人类评审员对其进行改进和验证。

LLM 辅助的同行评审工作流程，增强科学评审流程中的三个主要功能：（1）信息提取和总结，帮助评审员快速掌握论文内容；（2）稿件验证和质量保证，支持对论文声明进行系统验证；（3）评审写作支持，有助于生成结构良好的反馈。

在信息提取和总结功能中，系统自动理解和综合文档，以支持评审员理解。PaperMage [101] 是一个基础工具包，它集成自然语言处理和计算机视觉模型来处理视觉丰富的科学文档，能够跨多种模态复杂地提取逻辑结构、图形和文本内容。作为对这种结构分析的补充，CocoSciSum [29] 专注于内容总结，提供可定制的论文总结，精确控制长度和关键词，同时通过其组合控制架构保持较高的事实准确性。

对于稿件验证和质量保证功能，系统在不同的分析级别运行，以确保科学严谨性。在局部层面，ReviewerGPT [97] 专注于系统性错误检测和指南合规性，在验证提交要求方面实现高精度，同时有效地识别单个稿件中的数学错误和概念不一致。ReviewerGPT 专注于内部稿件验证，而 PaperQA2 [144] 则通过根据更广泛的科学文献检查声明来进行全局验证，使用复杂的语言智体来检测矛盾并验证断言。该系统表现出强大的性能，平均每篇论文识别出 2.34 个经过验证的矛盾，同时在跨文献分析中保持较高的事实准确性。此外，Scideator [122] 旨在促进想法验证，它通过各面重组来识别论文之间新且有科学依据的类比。Scideator 还包括一个新颖性检查器，它评估声明的独特性和对既定研究范式的遵守情况，为审稿人提供严格审查稿件的增强能力。在评审写作支持功能中，系统采用不同但互补的方法来帮助不同专业水平的评审员。ReviewFlow [149] 通过上下文反思提示和注释综合指导提供智能支架，模拟专家实践，帮助新手评审员撰写结构良好的评审。该系统的循序渐进方法将复杂的任务分解为可管理的组件，使同行评审新手受益。ReviewFlow 专注于对单个评审员的指导，而 CARE [198] 则通过一个集成平台强调评审写作的协作方面，该平台具有 NLP 增强的内联注释和实时协作功能，使评审员能够更有效地协作，同时提供详细和建设性的反馈 [19, 83]。DocPilot [110] 进一步补充这些功能，利用模块化任务规划和代码生成功能，自动执行文档工作流中重复和复杂的任务。其管理和注释科学 PDF 的结构化方法，确保评审员可以专注于实质性反馈而不是程序障碍，从而显著提高他们的效率。

基准

随着自动评审生成和 LLM 辅助工作流程的不断发展，研究界面临着一个关键挑战：系统地评估和比较这些方法。这一需求导致专门基准的开发，这些基准用于评估基于 LLM 同行评审系统的各个方面，从其生成高质量评审的能力到其支持人工评审的有效性。

基于 LLM 的同行评审系统开发和评估依赖于标准化基准，这些基准用于评估评审过程的不同方面。这些基准大致可分为三类：（1）支持整体评估的综合评审数据集，包括编辑决策、评分和实用分析；（2）专注于意见综合和一致性分析等特定方面的专门评估数据集；（3）通过缺陷识别和接受预测，衡量评审有效性的质量评估数据集。下表概述这些关键基准及其相关的评估框架。

请添加图片描述

这些数据集主要来自可公开访问的学术会议，在同行评审任务中用于各种目的。综合数据集（如 MOPRD [94] 和 NLPeer [33]）覆盖范围广泛，支持从编辑决策预测到实用标签等各种任务。更专业的数据集侧重于评审过程的特定方面：ASAP-Review [183] 和 Reviewer2 [39] 强调接受预测和覆盖率评估。最近添加的数据集（如 ReviewCritique [32]）引入用于对人工和 LLM 生成评审进行比较分析的新机制。

这些基准的评估框架涵盖多个维度，如上表所示。语义相似性衡量生成的评审与参考文本的匹配程度，通常使用 ROUGE 和 BertScore 等指标。连贯性和相关性评估评审的逻辑流程和主题适当性，而多样性和特异性则评估所提供反馈的范围和深度。人工评估结合专家对评审质量的评估，为自动化指标提供关键的验证。这四个评估要素- 语义相似性、连贯性和相关性、多样性和特异性以及人工评估 - 共同形成一种多面的方法，可确保从各个质量维度对 LLM 生成的评论进行全面评估。

挑战和未来工作

LLM 融入学术同行评审代表着学术评估的重大转变 [91, 92]。随着学术机构和出版商探索这项技术，了解其局限性和潜力对于学术界来说至关重要。

挑战。同行评审的核心在于需要深厚的专业知识、细致的理解和谨慎的判断。虽然 LLM 在支持这一过程方面表现出希望，但它们的局限性揭示自动化学术评估的复杂性。一个根本的挑战是，LLM 往往难以完全掌握学术领域的专业术语和复杂概念。例如，在生物化学领域，LLM 可能会误解特定蛋白质相互作用的意义，而在理论物理学领域，它可能无法识别数学模型中微妙但关键的假设 [192]。

这种有限的技术理解直接影响 LLM 评估研究方法的能力。当 LLM 不能完全理解特定领域的概念时，它就无法可靠地评估研究方法是否合适或证据是否证实结论。例如，在跨学科研究中，不同领域的方法标准各不相同，LLM 往往无法识别关键问题，如样本量不足、统计测试不合适或缺少实验控制 [129]。鉴于同行评审在确保研究质量和科学完整性方面的重要性，这一限制尤其令人担忧。

学术写作的复杂性带来额外的挑战，尤其是在处理较长的手稿时。即使上下文窗口扩大，LLM 也难以在大量文本中保持连贯的分析，往往会丢失跨多个部分的复杂论点。这种限制经常导致不一致或矛盾的评价 [18]。更令人担忧的是持续存在的幻觉问题——模型有时会产生令人信服但不正确的评估，尤其是在审查新的研究方法时 [28]。

此外，在同行评审中实施 LLM 还面临着技术性能限制以外的其他挑战。一个基本的基础设施问题是专业训练数据的短缺 [65, 184]，这造成学科间不平衡的格局。这种数据稀缺尤其影响研究社区较小或专业词汇较少的领域。同样令人担忧的是， LLM 辅助同行评审的伦理影响。算法偏见和透明度问题 [133] 与新形式的学术不端行为，一起出现，例如“抄袭洗白（plagiarism laundering）” [117]。此外，如果许多研究人员依赖相同的 LLM 系统进行同行评审，那么一个关键问题是学术反馈可能会同质化 [91]。类似智能工具的广泛使用可能会减少观点的多样性，削弱源自个人人类审阅者不同思维过程的创造性见解。

未来的工作。为了提高 LLM 在学术论文评审方面的能力，必须优先考虑几个基本的技术挑战。首先，当前的 LLM 难以掌握不同学术领域的专业技术概念，因此需要改进处理和理解领域特定术语的方法。其次，需要增强引用分析能力，以验证参考相关性并评估引用对论文论点的支持效果。第三，分析长篇学术文献需要新的方法来保持一致性——从各部分之间的交叉引用到验证方法、结果和结论之间的一致性。

除了技术改进之外，开发有效的人-机协作框架也至关重要。下一代审查系统必须创建直观的界面，突出潜在问题并与人类工作流程无缝集成 [31]。这些协作系统必须能够适应不同的学术领域，并特别考虑计算资源有限的学科 [132]。这些人类-人工智能系统的严格评估框架必须确保它们真正提高审稿人的效率和效力 [81, 169]。

随着 LLM 在同行评审中变得越来越普遍，强大的治理机制变得至关重要。这包括开发可靠的方法来检测 LLM 生成的内容，确保对 LLM 贡献的透明跟踪，以及维护审稿人的真实性 [91]。此外，需要标准化的协议，以便将 LLM 审查工具与现有的期刊平台安全地集成 [6]。

最后，必须通过全面的评估框架来衡量这些领域的进展。对于技术能力，需要系统地评估语言理解、引用分析和文档连贯性的改进。人机协作指标应评估 LLM 建议的质量及其对审稿人效率的影响。治理评估必须评估 LLM 检测系统的可靠性和平台集成的安全性。至关重要的是，这些框架应检查不同学科、出版格式和语言背景中的潜在偏见，以确保为所有学术界提供公平的支持。通过这些有针对性的评估，可以指导 LLM 系统的开发，从而有效地增强同行评审流程，同时保持其完整性。