A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery
科学大语言模型及其在科学发现中的应用综合概览
paper: https://arxiv.org/abs/2406.10833
GitHub: https://github.com/yuzhimanhua/Awesome-Scientific-Language-Models
本文探索了“一般科学,数学,物理学,化学,材料学,生物医学,地理学,地质学,环境科学”的模型发展,训练数据集,评估任务等等。模型发展包括从BERT-GPT-指令遵循,调研了大量的语言模型。
文章目录~
- 1.总结
- 2.原文阅读
- Abstract
- 1 Introduction
- 2 LLMs in General Science (Table A1)
- 3 LLMs in Mathematics (Table A2)
- 4 LLMs in Physics (Table A3)
- 5 LLMs in Chemistry and Materials Science (Table A4)
- 6 LLMs in Biology and Medicine (Table A5)
- 7 LLMs in Geography, Geology, and Environmental Science (Table A6)
- 8 Challenges and Future Directions
- 9.Limitations
1.总结
1.1.一般科学LLM
1.纯文本:
1.1.纯文本—数据集:
科学LLM 最常用的预训练语料库是来自书目数据库的研究论文,例如 AMiner、Microsoft Academic Graph (MAG)和 Semantic Scholar。其中一些来源(S2ORC)包含论文全文信息,而其他来源仅包含标题和摘要。
1.2.纯文本—Model分类(预训练方式):
早期的科学LLM模型在预训练期间以自监督的方式利用论文文本,旨在从大规模未标记语料库中获取科学知识。例如:
- BERT:以 BERT 为backbone的科学 LLM,MLM是默认的预训练任务(例如 SciBERT)
- GPT:下一个token预测用于基于 GPT 的科学 LLM(例如 SciGPT)。
- 指令训练:最近投入了更多精力来调整 LLM,使其能够根据指令解决复杂的科学问题(例如 Galactica 和 SciGLM)。指令调整数据通常来自下游任务的数据集,例如考试问答,并由人类或现有 LLM(例如 GPT-4)进一步过滤/增强。
2.文本+Graph结构:
2.1.文本+Graph结构—数据集:
科学论文还与丰富的元数据相关联,包括地点、作者和参考文献。此类元数据将论文连接到一个图形中,该图形补充了用于表征论文语义的文本信号。
2.2.文本+Graph结构—Model分类(训练数据):
- 论文文本+地点/作者:为了利用元数据,一些研究( OAG-BERT)将论文文本与地点/作者连接起来作为输入,并对文本和元数据执行 MLM;
- 参考文献:其他研究( SPECTER)将引文链接作为监督,并训练 LLM 以在嵌入空间中更紧密地编码链接的论文。
- 模型架构:修改 LLM 中的 Transformer 架构,使用适配器、GNN 嵌套 Transformer 和混合专家 Transformer来更好地捕获图形信号。
2.3.文本+Graph结构—评估方式:
图形感知科学 LLM 通常在有关两个文本单元(例如,论文-论文或查询-论文)之间关系的任务上进行评估,包括链接预测、检索、推荐和作者姓名消歧。SciDocs 和 SciRepEval是采用的基准数据集。
2.4.科学LLM—下游应用:
- 将 LLM 集成到搜索引擎中,以发现科学挑战和方向;
- 利用 LLM 产生基于先前文献的新颖科学想法;
- 依靠 LLM 为每篇提交的文章寻找专家审阅者;
- 探索 GPT-4 在研究论文上提供有用反馈以促进自动审阅生成的能力。
1.2.数学领域LLM
1.纯文本:
1.1.纯文本—数据集:
数学 LLM 的预训练文本语料库可分为两类:
- 多项选择问答,其代表性数据集包括 MathQA 、Ape210K 和 Math23K
- 生成问答,其代表性数据集包括 GSM8K 、MATH 和 Meta-MathQA
1.2.纯文本—model类型(预训练):
- BERT:LLM 的骨干模型是 BERT(例如 GenBERT和 MathBERT)。这些模型大多通过 MLM 进行训练,唯一例外 BERT-TD,其采用了对比损失。
- GPT:基于 GPT 的数学 LLM(例如 GSM8K-GPT和 NaturalProver),我们发现了多种预训练任务:监督微调、下一个 token 预测和指令调整。
- 指令遵循:最新的数学 LLM(例如 Rho-Math和 MAmmoTH2)基于 LLaMA,并经过训练以遵循自然语言指令。但是,当有大量预训练数据集(例如 550 亿个标记)可用时,下一个标记预测仍然受到青睐,作为单纯的预训练任务或伴随任务来构建基础模型。
1.3.纯文本—模型评估:
QA 和数学世界问题 (MWP) 一直是最常见的评估任务。
- GSM8K 和 MATH 在 QA 中占主导地位,
- MathQA 和 Math23K 在 MWP 中占主导地位。
- 对于定量推理,MMLU-STEM和 Big-Bench Hard是最广泛采用的。
2.文本+视觉
2.1.文本+视觉—数据集:
几何是数学最重要的分支之一,它以文本和图表的形式共同表达设置。几何 LLM 必须包含视觉模态。几何 LLM 最常用的预训练数据集包括 Geometry3K和 GeoQA,两者都包含多项选择几何问题。
2.2.文本+视觉—model分类:
- Inter-GPS使用 RetinaNet将图像转换为一组关系,然后应用 BART来生成解决方案
- G-LLaVA 通过预训练的视觉 Transformer (ViT) 对视觉输入进行编码,将视觉嵌入与文本嵌入连接起来,然后将连接输入到 LLaMA-2
这些模型默认通过序列到序列任务进行预训练,其中问题是输入,带有可选原理的真值答案是输出。为了更好地进行视觉建模,可以选择添加辅助损失,例如MASK图像建模、图像构造或文本图像匹配。
2.3.文本+视觉—模型评估:
几何 LLM 通过几何问题求解进行评估,其中要求模型根据图表及其标题、问题和答案选项选择正确的答案。评估数据集包括 Geometry3K、GEOS和 MathVista。
3.表格
3.1.表格—数据集:
大部分数学知识以表格数据的形式存储。对于“表格”,数据集包括 Wik-iTableQuestions、WikiSQL和 WDC Web Table。
3.2.表格—model分类:
在大多数情况下,表格被压缩成线性文本序列作为上下文的一部分,并以问题文本作为模型输入。
TAPAS采用 MLM 对象来预测文本和表格上下文中的掩码标记。 TableLlama以 LLaMA-2 作为主干,指令调整作为预训练任务。
3.1.表格—model评估:
表 LLM 通过表 QA 进行验证,其中要求模型根据表结构、数据值和问题文本生成正确答案。大多数现有研究已在 WikiTableQuestions 和 WikiSQL 数据集上进行了评估。
4.数学LLM在下游应用:
- Alpha-Geometry 将 LLM 与符号推理引擎相结合,其中 LLM 生成有用的结构,符号引擎应用形式逻辑来寻找解决方案。Alpha-Geometry 解决了国际数学奥林匹克竞赛改编的 30 道经典几何题中的 25 道。
- FunSearch 将 LLM 与程序搜索相结合。FunSearch 的一个显著成就是它能够找到组合优化中上限集问题的新解。生成的解决方案可能比人类专家设计的解决方案更快、更有效。
1.3.物理学LLM
现有的物理学 LLM 主要侧重于天文学。
- BERT:astroBERT 使用天文学相关论文通过 MLM 和下一句预测进一步进行预训练。
- GPT:AstroLLaMA用来自 arXiv 的 300,000 多篇天文学摘要对 LLaMA-2 进行微调。它在论文生成和论文推荐任务上进行评估。AstroLLaMA-chat 是 AstroLLaMA 的聊天版本。它在 GPT-4 生成的领域特定对话数据集上持续训练。
1.4.化学和材料科学LLM
1.纯文本:
1.1.纯文本—数据集:
- 化学和材料科学领域的 LLM 预训练语料库通常来自研究论文和数据库(Materials Project)
- 最近的研究采用了领域特定的指令调整数据集(例如,Mol-Instructions 和 SMolInstruct
1.2.纯文本—model分类:
- BERT:早期对化学 LLM 的研究大多采用中等大小的仅编码器架构,并使用 MLM (例如,ChemBERT 、MatSciBERT 和 BatteryBERT ) 进行预训练。
- GPT:使用下一个 token 预测和指令调整训练的大规模仅解码器LLM。包括 ChemDFM、ChemLLM和 LlaSMol。
2.文本 + Graph:
2.1.文本 + Graph—数据集:
图是表征分子的合适数据结构。包含分子图的流行数据集包括 ChEBI-20、ZINC和 PCDes。
2.2.文本 + Graph—model分类:
- 第一类:采用 GNN 作为图编码器,LLM 作为文本编码器。这两种模态通过对比学习连接起来。例如,Text2Mol使用 GCN和 SciBERT 分别对分子及其相应的自然语言描述进行编码,以进行文本到分子的检索。
- 第二类:利用 LLM 同时对文本和图形进行编码。图形可以线性化为 SMILES 字符串,也可以使用图形编码器将其投影到虚拟标记上。例如,3D-MoLM使用 3D 分子编码器将分子表示为标记,并将它们与指令一起输入 LLaMA-2 进行分子到文本的检索和分子字幕制作。
3.文本 + 视觉图像:
作为文本和图形模态的补充,分子图像构成了化学中的视觉模态。现有研究采用与 BLIP-2类似的理念,将每幅图像表示为标记并将其输入到 LLM中。例如,GIT-Mol将所有模态(包括图形和图像)投影到潜在文本空间中,并使用 T5进行编码和解码。
1.5.生物医学LLM
1.纯文本:
1.纯文本—数据集:
除了研究文章(例如 PubMed 的标题 / 摘要和 PMC 的全文)之外,生物医学 LLM 的预训练语料库还包括电子健康记录(例如 MIMIC-III,MIMIC-IV),知识库(例如 UMLS)和与健康相关的社交媒体帖子(例如 COVID-19 推文)。最近的研究进一步从医学考试问题、知识图谱和医患对话中收集了监督微调和偏好优化数据集。例子包括 ChiMed 、MedInstruct-52k 和 BiMed1.3M ,其中许多都有非英语成分(例如中文和阿拉伯语)。
1.纯文本—model分类:
小模型:基于编码器的(例如 BioBERT 、Bio-ELECTRA 、BioRoBERTa 、BioALBERT 和 Clinical-Longformer )和基于编码器-解码器的(例如 SciFive 、BioBART 和 BioGPT)。
大模型:指令调整十亿参数的 LLM(例如 Med-PaLM、MedAlpaca和 BioMistral。因此,评估任务变成了单轮问答和多轮对话。
- 文本+Graph:
联合利用文本和此类图信息为 QA 中的多跳推理铺平了道路。例如,分别使用 LLM 和 GNN 来编码文本和本体信号,并对其进行深度融合;将两篇链接论文的文本片段连接在一起,并将该序列输入 LLM 进行预训练,
3.文本+视觉图像:
数据集:
生物医学文本-图像对通常来自两个来源:
- 医学报告,例如胸部 X 光片(例如 MIMIC-CXR 和病理报告);
- 从生物医学论文中提取的图形标题对(例如 ROCO 和 MedICaT )。
model:
- 大多数生物医学视觉语言模型都利用 CLIP 架构,其中文本编码器和图像编码器联合训练,通过对比学习 将配对的文本和图像映射得更近。文本编码器的选择从 BERT和 GPT-2演变为 LLaMA和 LLaMA-2,而图像编码器从 ResNet演变为 ViT和 Swin Transformer。MLM、MASK图像建模和文本-文本/图像-图像对比学习(即通过在语言/视觉模态中创建增强视图)有时被用作辅助预训练任务。
- 除了 CLIP,还探索了其他通用领域的视觉语言架构,例如 LLaVA、PaLM-E和 Gemini。例如,LLaVA-Med将图像编码为多个视觉标记,并将它们添加到文本标记前面作为 LLM 输入。
4.生物医学LLM下游应用:
-
CRISPR-GPT通过领域知识增强了 LLM 代理,从而增强了基于 CRISPR 的基因编辑实验的设计过程。
-
ESM-1b和 ESM-2无需昂贵且耗时的实验即可准确预测蛋白质结构;
-
Feruz 和 Höcker对蛋白质家族的 LLM 进行了微调,从而可以生成高度发散但仍具有潜在功能的新序列;
-
Hie 等人开发了可以预测病毒逃逸突变的 LLM。
1.6.地理学、地质学和环境科学LLM
1.纯文本:
1.1.纯文本—数据集:
地球科学研究论文、气候相关新闻文章、维基百科页面、企业可持续发展报告、知识库(例如 GAKG)和兴趣点 (POI) 数据(例如 OpenStreetMap)构成了地球科学 LLM 的预训练语料库。
1.2.纯文本—model分类:
对地球科学 LLM 的初步研究集中于使用 Transformer 编码器主干(例如 ClimateBERT、SpaBERT和 MGeo)预训练双向 LLM。例如,SpaBERT 和 MGeo 分别对一系列地理位置执行 MLM 以进行地理实体链接和查询 POI 匹配。
最近,相关研究集中于扩大地球科学领域解码式自回归 LLM(例如 K2、OceanGPT和 GeoGalactica)。例如,K2 和 OceanGPT 分别通过监督微调将 LLaMA 应用于地球科学和海洋科学,微调使用由人类专家策划的领域特定指令和/或由通用领域 LLM 增强。
2.Language + Graph:
一些地球科学应用涉及图信号,例如异构 POI 网络和知识图谱。为了联合处理此类信号和文本,ERNIE-GeoL引入了基于 Transformer 的聚合层,以在基于 BERT 的架构中深度融合文本和 POI 信息;PK-Chat将 LLM 与知识图谱上的指针生成网络相结合,构建知识驱动的对话系统。
3.Language + Vision:
鸟为了联合处理语言和视觉模式,UrbanCLIP考虑使用 CLIP 架构
4.时间序列:
基于 ERA5和 CMIP6气候时间序列数据集,先前的研究利用 ViT 和 Swin Transformer 架构对天气预报的基础模型进行预训练。代表性模型包括 FourCastNet、Pangu-Weather等。
2.原文阅读
Abstract
在许多科学领域,大型语言模型(LLM)已经彻底改变了处理文本和其他模式数据(如分子和蛋白质)的方式,在各种应用中实现了卓越的性能,并增强了科学发现过程。然而,以往关于科学 LLM 的研究往往集中于一到两个领域或单一模式。在本文中,我们旨在通过揭示科学 LLM 在架构和预训练技术方面的跨领域和跨模式联系,为研究领域提供更全面的视角。为此,我们全面调查了 250 多种科学 LLM,讨论了它们的共性和差异,并总结了每个领域和模式的预训练数据集和评估任务。此外,我们还调查了如何利用 LLM 来促进科学发现。本调查的相关资源可在 https://github.com/yuzhimanhua/Awesome-Scientific-Language-Models获取。
1 Introduction
大型语言模型(LLMs)的出现为自然语言处理(NLP)带来了一种新的范式,即用对各种问题都相当有效的统一模型取代为每项任务设计的专门模型。在科学领域,这种范式不仅重塑了人们处理自然语言相关任务(如科学论文、医疗记录和气候报告)的策略,还激发了人们处理其他类型数据(如分子、蛋白质、表格和元数据)的类似想法。除了理解现有的科学数据外,LLM 还显示出通过生成、规划等方式加速科学发现的潜力。
鉴于LLM在不同科学领域、不同模式中的广泛而深远的影响,有必要全面回顾这一方向的相关工作。然而,现有的科学LLM调查通常只关注一到两个领域(如生物医学[23, 24, 25]和化学[26, 27])或一种模式(如文字[10])。事实上,如果我们从整体上审视研究领域,就会发现不同领域和模式在开发 LLM 时使用了类似且相互关联的技术。
图 1 描述了三种主要的科学 LLM 预训练策略(即第 1 至 3 列),对于每种策略,我们给出了 4 个示例(即第 A 至 D 类)。在第 1 列中,继 BERT和 RoBERTa之后,现有研究使用掩码语言模型 (MLM) 来预训练编码器语言模型。在这里,输入可以是自然顺序的(例如,每个领域的论文、FASTA 格式的蛋白质/DNA/RNA 序列或人工线性化的,引用图中的地点/作者/参考节点序列)。在第 2 列中,受 GPT和 LLaMA的启发,先前的研究采用下一个标记预测来预训练编码器-解码器语言模型,其中一些进一步采用了指令调整和偏好优化。除了纯文本输入(例如来自知识库或考试的问答对)之外,我们还看到了更多对复杂科学数据进行序列化的方法,例如展平表格单元格和使用粒子坐标来描述晶体。即使对于图像,数学(Gao 等人,2023 年)和生物医学(Li 等人,2023a)中的研究也利用视觉编码器将图像投影到多个视觉标记上,并将它们作为线性化的 LLM输入添加到文本标记中。在 COLUMN 中,遵循 DPR和 CLIP,两个编码器经过预训练,通过对比学习将相关数据对映射到潜在空间中更近的位置。当两种模态都是连续的(例如,文本-文本或文本-蛋白质)时,该模型建立在两个 LLM 编码器之上。当我们希望保持一种模态的非连续性时,可以使用相应的图形或图像编码器。总而言之,跨领域跨模态调查将更准确地绘制不同科学 LLM 之间的联系,展示它们的共同点,并可能指导它们未来的设计。
贡献:在本文中,在上述讨论的推动下,我们系统地调查了 250 多个科学 LLM,涵盖各个领域(例如,普通科学、数学、物理学、化学、材料科学、生物学、医学和地球科学)、模态(例如,语言、图形、视觉、表格、分子、蛋白质、基因组和气候时间序列)和大小(从 ∼100M 到 ∼100B 个参数)。对于每个领域/模态,我们研究了常用的预训练数据集、模型架构和科学 LLM 的评估任务。按照我们的动机,当我们详细讨论模型架构时,我们将它们链接回图 1 以建立跨领域跨模态连接。此外,我们在表 A1-表 A6(附录 A)中提供了这些科学 LLM 的结构化摘要。此外,针对不同的领域,我们介绍了LLM如何通过增强科学发现过程的不同方面和阶段(例如假设生成、定理证明、实验设计、药物发现和天气预报)来造福科学。
2 LLMs in General Science (Table A1)
普通科学LLM:
2.1.Language
科学LLM 最常用的预训练语料库是来自书目数据库的研究论文,例如 AMiner、Microsoft Academic Graph (MAG)和 Semantic Scholar。其中一些来源(例如 S2ORC)包含论文全文信息,而其他来源仅包含标题和摘要。
科学LLM 的发展与通用领域LLM 的发展相似。具体而言,先驱模型在预训练期间以自监督的方式利用论文文本,旨在从大规模未标记语料库中获取科学知识。例如:
- 对于以 BERT 为骨干的科学 LLM,掩码语言建模 (MLM) 是默认的预训练任务(图 1 中的类型 1.A,例如 SciBERT);
- 下一个 token 预测广泛用于基于 GPT 的科学 LLM(图 1 中的类型 2.A,例如 SciGPT)。
- 最近,受到LLM可以训练遵循自然语言指令这一事实的启发,研究人员投入了更多精力来调整 LLM,使其能够根据指令解决复杂的科学问题(类型 2.A,例如 Galactica (Taylor et al., 2022) 和 SciGLM (Zhang et al., 2024a))。指令调整数据通常来自下游任务的数据集,例如考试问答(Welbl 等人,2017),并由人类或现有 LLM(例如 GPT-4)进一步过滤/增强。
科学 LLM 通常在常见的 NLP 任务上进行评估,例如命名实体识别 (NER)、关系提取 (RE)、问答 (QA)和分类。
2.2.Language + Graph
除了纯文本之外,科学论文还与丰富的元数据相关联,包括地点、作者和参考文献(Zhang 等人,2023h)。此类元数据将论文连接到一个图形中,该图形补充了用于表征论文语义的文本信号。
- 为了利用元数据,一些研究(类型 1.B,例如 OAG-BERT(Liu 等人,2022b))将论文文本与地点/作者连接起来作为输入,并对文本和元数据执行 MLM;
- 其他研究(类型 3.A,例如 SPECTER(Cohan 等人,2020))将引文链接作为监督,并训练 LLM 以在嵌入空间中更紧密地编码链接的论文。
- 最近的方法进一步修改了 LLM 中的 Transformer 架构,使用适配器 (Singh 等人,2023 年)、GNN 嵌套 Transformer (Jin 等人,2023b) 和混合专家 Transformer (Zhang 等人,2023g) 来更好地捕获图形信号。
图形感知科学 LLM 通常在有关两个文本单元(例如,论文-论文或查询-论文)之间关系的任务上进行评估,包括链接预测、检索、推荐和作者姓名消歧。SciDocs (Cohan 等人,2020 年) 和 SciRepEval (Singh 等人,2023 年) 是广泛采用的基准数据集。
2.3.Applications in Scientific Discovery
高效的科学 LLM 可以在整个科学发现过程中与研究人员一起工作。我们将特定领域的应用留到后面的部分,在这里我们强调 LLM 在头脑风暴和评估中的普遍用途:
- Lahav 等人 (2022) 将 LLM 集成到搜索引擎中,以发现科学挑战和方向;
- Wang 等人 (2023f) 和 Baek 等人 (2024) 利用 LLM 产生基于先前文献的新颖科学想法;
- Zhang 等人 (2023i) 依靠 LLM 为每篇提交的文章寻找专家审阅者;
- Liu 和 Shah (2023)、Liang 等人 (2023a) 和 D’Arcy 等人 (2024) 探索了 GPT-4 在研究论文上提供有用反馈以促进自动审阅生成的能力。
3 LLMs in Mathematics (Table A2)
数学领域LLM:
3.1.Language
数学 LLM 的预训练文本语料库可分为两类:
- 多项选择问答,其代表性数据集包括 MathQA (Amini et al., 2019)、Ape210K (Zhao et al., 2020) 和 Math23K (Wang et al., 2017);以及
- 生成问答,其代表性数据集包括 GSM8K (Cobbe et al., 2021a)、MATH (Hendrycks et al., 2021) 和 Meta-MathQA (Yu et al., 2023b)。
- 与一般科学 LLM 类似,开创性数学 LLM 的骨干模型是 BERT(TYPE 1.A,例如 GenBERT(Geva 等人,2020 年)和 MathBERT(Shen 等人,2021 年))。这些模型大多通过 MLM 进行训练,唯一的例外是 BERT-TD(Li 等人,2022c),其中采用了对比损失。
- 对于基于 GPT 的数学 LLM(TYPE 2.A,例如 GSM8K-GPT(Cobbe 等人,2021b)和 NaturalProver(Welleck 等人,2022 年)),我们发现了多种预训练任务:监督微调、下一个 token 预测和指令调整。
- 最新的数学 LLM(TYPE 2.A,例如 Rho-Math(Lin 等人,2024a)和 MAmmoTH2(Yue 等人,2024))基于 LLaMA,并经过训练以遵循自然语言指令。但是,当有大量预训练数据集(例如 550 亿个标记)可用时,下一个标记预测仍然受到青睐,作为单纯的预训练任务或伴随任务来构建基础模型。
QA 和数学世界问题 (MWP) 一直是最常见的评估任务。此外,定量推理包含更困难的问题,因为模型必须提供完整且自成体系的解决方案,而不依赖外部工具。
- 我们看到 GSM8K 和 MATH 在 QA 中占主导地位,
- 而 MathQA 和 Math23K 在 MWP 中占主导地位。
- 对于定量推理,MMLU-STEM(Hendrycks 等人,2020)和 Big-Bench Hard(Suzgun 等人,2023)是最广泛采用的。
3.2.Language + Vision
几何是数学最重要的分支之一,它以文本和图表的形式共同表达设置。因此,几何 LLM 必须包含视觉模态。几何 LLM 最常用的预训练数据集包括 Geometry3K(Lu et al., 2021)和 GeoQA(Chen et al., 2021),两者都包含多项选择几何问题。
将视觉模态融入 LLM 的关键是对图像进行编码并获得线性化的视觉表示。具体来说,
- Inter-GPS(Lu et al., 2021)(TYPE 2.D)使用 RetinaNet(Lin et al., 2017)将图像转换为一组关系,然后应用 BART(Lewis et al., 2020a)来生成解决方案;
- G-LLaVA (Gao 等人,2023) (TYPE 2.D) 通过预训练的视觉 Transformer (ViT) 对视觉输入进行编码,将视觉嵌入与文本嵌入连接起来,然后将连接输入到 LLaMA-2 (Tou- vron 等人,2023b)。
这些模型默认通过序列到序列任务进行预训练,其中问题是输入,带有可选原理的真值答案是输出。为了更好地进行视觉建模,可以选择添加辅助损失,例如蒙版图像建模、图像构造或文本图像匹配。
几何 LLM 通过几何问题求解进行评估,其中要求模型根据图表及其标题、问题和答案选项选择正确的答案。著名的评估数据集包括 Geometry3K(Lu et al.,2021)、GEOS(Seo et al.,2015)和 MathVista(Lu et al.,2023b)。
3.3.Table
很大一部分数学知识以表格数据的形式存储。对于“表格”模式,值得注意的预训练资源包括 Wik-iTableQuestions(Pasupat 和 Liang,2015 年)、WikiSQL(Zhong 等人,2017 年)和 WDC Web Table(Lehmberg 等人,2016 年)。
表格中的挑战与图表中的挑战类似,即获得线性化的表格表示。在大多数情况下,表格被压缩成线性文本序列作为上下文的一部分,并以问题文本作为模型输入。作为该研究领域的首批作品之一,TAPAS(Herzig 等人,2020 年)(类型 1.A)采用 MLM 对象来预测文本和表格上下文中的掩码标记。最新的进展(Li 等人,2023c;Zhang 等人,2024d)类似于 TableLlama(Zhang 等人,2023d)(TYPE 2.B)的设计,以 LLaMA-2 作为主干,指令调整作为预训练任务。
表 LLM 通过表 QA 进行验证,其中要求模型根据表结构、数据值和问题文本生成正确答案。大多数现有研究已在 WikiTableQuestions 和 WikiSQL 数据集上进行了评估。TableInstruct(Zhang 等人,2023d)是最近开发的综合基准,集成了 11 个任务中的 14 个数据集。
3.4.Applications in Scientific Discovery
数学 LLM 在协助人类提供潜在解决方案方面具有巨大潜力。例如,
- Alpha-Geometry (Trinh 等人,2024) 将 LLM 与符号推理引擎相结合,其中 LLM 生成有用的结构,符号引擎应用形式逻辑来寻找解决方案。Alpha-Geometry 解决了国际数学奥林匹克竞赛改编的 30 道经典几何题中的 25 道。
- Sinha 等人 (2024) 通过添加吴的方法 (Chou,1988) 扩展了 Alpha-Geometry,进一步解决了 30 道题中的 27 道,超越了人类金牌得主。
- FunSearch (Romera-Paredes 等人,2024) 将 LLM 与程序搜索相结合。FunSearch 的一个显著成就是它能够找到组合优化中上限集问题的新解。生成的解决方案可能比人类专家设计的解决方案更快、更有效。
- 在 Li 等人的研究中, (2024a),LLM利用情境学习和思路链推理,以迭代方式提出和批判统计模型 (Wei et al., 2022b)。
4 LLMs in Physics (Table A3)
物理学LLM:
现有的物理学 LLM 主要侧重于天文学和“语言”模式。作为 BERT 的衍生产品,astroBERT (Grezes et al., 2021) (TYPE 1.A) 使用天文学相关论文通过 MLM 和下一句预测进一步进行预训练。它在 NER 任务上进行评估。同样,AstroLLaMA (Nguyen et al., 2023b) (TYPE 2.A) 使用来自 arXiv 的 300,000 多篇天文学摘要对 LLaMA-2 进行微调。它在论文生成和论文推荐任务上进行评估。AstroLLaMA-chat (Perkowski et al., 2024) (TYPE 2.A) 是 AstroLLaMA 的聊天版本。它在 GPT-4 生成的领域特定对话数据集上持续训练。
5 LLMs in Chemistry and Materials Science (Table A4)
化学和材料科学LLM:
5.1.Language
化学和材料科学领域的 LLM 预训练语料库通常来自研究论文和数据库(例如,Materials Project (Jain et al., 2013))。此外,最近的研究采用了领域特定的指令调整数据集(例如,Mol-Instructions (Fang et al., 2023a) 和 SMolInstruct (Yu et al., 2024)),这些数据集来自 PubChem (Kim et al., 2019)、MoleculeNet (Wu et al., 2018) 等。
- 早期对化学 LLM 的研究大多采用中等大小的仅编码器架构,并使用 MLM (TYPE 1.A,例如,ChemBERT (Guo et al., 2022)、MatSciBERT (Gupta et al., 2022) 和 BatteryBERT (Huang and Cole, 2022)) 进行预训练。这些模型通常在下游任务上进行评估,包括反应角色标记(Guo 等人,2022 年)和抽象分类(Gupta 等人,2022 年)
- 最近,研究人员更多地关注使用下一个 token 预测和指令调整(TYPE 2.A)训练的大规模仅解码器LLM。例子包括 ChemDFM(Zhao 等人,2024 年)、ChemLLM(Zhang 等人,2024b 年)和 LlaSMol(Yu 等人,2024 年)。考虑到此类模型所需的泛化能力,它们在一系列不同的任务上进行评估,例如名称转换、反应预测、逆合成、基于文本的分子设计和晶体生成。
5.2.Language + Graph
图是表征分子的合适数据结构。包含分子图的流行数据集包括 ChEBI-20(Edwards 等人,2021、2022)、ZINC(Sterling and Irwin,2015)和 PCDes(Zeng 等人,2022)。
在某些情况下,分子图与文本信息同时出现,因此现有研究已经探索了如何有效地对两者进行编码。
- 第一类此类模型采用 GNN 作为图编码器,LLM 作为文本编码器。这两种模态通过对比学习连接起来(Liu 等人,2023d)(类型 3.C)。例如,Text2Mol(Edwards 等人,2021 年)使用 GCN(Kipf 和 Welling,2016 年)和 SciBERT 分别对分子及其相应的自然语言描述进行编码,以进行文本到分子的检索。
- 第二类模型利用 LLM 同时对文本和图形进行编码(Zeng 等人,2022 年)。图形可以线性化为 SMILES 字符串(Edwards 等人,2022 年)(类型 2.C),也可以使用图形编码器将其投影到虚拟标记上(Zhao 等人,2023a;Liu 等人,2023f)(类型 2.D)。例如,3D-MoLM(Li et al.,2024b)使用 3D 分子编码器将分子表示为标记,并将它们与指令一起输入 LLaMA-2 进行分子到文本的检索和分子字幕制作。
5.3.Language + Vision
作为文本和图形模态的补充,分子图像构成了化学中的视觉模态。现有研究采用与 BLIP-2(Li 等人,2023b)类似的理念,将每幅图像表示为标记并将其输入到 LLM(TYPE 2.D)中。例如,GIT-Mol(Liu 等人,2024)将所有模态(包括图形和图像)投影到潜在文本空间中,并使用 T5(Raffel 等人,2020)进行编码和解码。
5.4.Molecule
与 5.2 小节不同,本小节介绍了处理没有相关文本信息的分子的模型。话虽如此,受 LLM 启发的类似方法也被用于开发分子语言模型。具体来说,大多数研究采用 SMILES 或 SELFIES (Krenn 等人,2020 年) 字符串作为分子的顺序表示。与“语言”模态的趋势类似,先驱分子 LLM 专注于使用双向 Transformer 编码器进行表示学习 (TYPE 1.C,例如 SMILES-BERT (Wang 等人,2019 年) 和 MoLFormer (Ross 等人,2022 年))。例如,ChemBERTa (Chithrananda 等人,2020) 采用与 RoBERTa (Liu 等人,2019) 类似的架构和预训练策略。这些模型在分子理解任务中表现出非凡的能力,例如分子特性预测(例如毒性分类 (Wu 等人,2018) 和原子化能量回归 (Ramakr-ishnan 等人,2014))以及虚拟筛选 (Riniker 和 Landrum,2013)。后来的研究探索以自回归方式表示分子(TYPE 2.C,例如 BARTSmiles (Chilingaryan 等人,2022) 和 ChemGPT (Frey 等人,2023))。
例如,T5Chem(Lu 和 Zhang,2022 年)采用 T5 主干和序列到序列预训练目标。这些模型在生成任务中进行了评估,包括分子生成(Gaulton 等人,2017 年)、反应预测和逆合成。除了线性化分子外,还有一些研究修改了 Transformer 架构以容纳分子图,例如 MAT(Maziarka 等人,2020 年)和 R-MAT(Maziarka 等人,2024 年)。
5.5.Applications in Scientific Discovery
先前的研究表明,LLM 有助于自主化学研究。例如,Bran 等人 (2024) 提出了一种化学 LLM 代理 Chem-Crow,它可以集成专家设计的有机合成、药物发现和材料设计工具;Boiko 等人 (2023) 开发了一个由 LLM 赋能的智能系统 Coscientist,可以设计、规划和执行化学研究。LLM 还有助于药物和催化剂设计。例如,ChatDrug (Liu 等人,2023e) 探索使用 LLM 进行药物编辑,其中包含提示模块、领域反馈模块和对话模块;DrugAssist (Ye 等人,2023a) 被提议作为一种基于 LLM 的交互式模型,通过人机对话进行分子优化;Sprueill 等人 (2023、2024) 使用 LLM 作为代理,通过蒙特卡洛树搜索和原子神经网络模型的反馈来搜索有效的催化剂。
6 LLMs in Biology and Medicine (Table A5)
生物医学LLM:
6.1.Language
生物医学数据集:
除了研究文章(例如 PubMed 的标题 / 摘要(Lu,2011)和 PMC 的全文(Beck and Sequeira,2003))之外,生物医学 LLM 的预训练语料库还包括电子健康记录(例如 MIMIC-III(Johnson et al.,2016),MIMIC-IV(Johnson et al.,2023)),知识库(例如 UMLS(Bodenreider,2004))和与健康相关的社交媒体帖子(例如 COVID-19 推文(Müller et al.,2023))。最近的研究进一步从医学考试问题、知识图谱和医患对话中收集了监督微调和偏好优化数据集。例子包括 ChiMed (Ye 等人,2023b)、MedInstruct-52k (Zhang 等人,2023e) 和 BiMed1.3M (Acikgoz 等人,2024),其中许多都有非英语成分(例如中文和阿拉伯语)。
生物医学 LLM 发展的分水岭时刻仍然是十亿参数架构和指令调整的出现。在此之前,人们探索了各种中等规模的主干网络,包括基于编码器的(TYPE 1.A,例如 BioBERT (Lee et al., 2020)、Bio-ELECTRA (Ozyurt, 2020)、BioRoBERTa (Lewis et al., 2020b)、BioALBERT (Naseem et al., 2022) 和 Clinical-Longformer (Li et al., 2022a))和基于编码器-解码器的(TYPE 2.A,例如 SciFive (Phan et al., 2021)、BioBART (Yuan et al., 2022a) 和 BioGPT (Luo et al., 2022))。这些模型的评估任务范围从生物医学 NER、RE、句子相似度估计、文档分类和 QA到自然语言推理 (NLI)和实体链接。
分水岭之后,趋势变成了指令调整十亿参数的 LLM(TYPE 2.A,例如 Med-PaLM(Singhal 等人,2023a)、MedAlpaca(Han 等人,2023)和 BioMistral(Labrak 等人,2024))。因此,评估任务变成了单轮问答(Jin et al., 2021; Pal et al., 2022)和多轮对话(Wang et al., 2023h)。同时,有研究提出了一种双编码器架构(TYPE 3.A,例如 Jin et al. (2023c) 和 Xu et al. (2024)),专门针对生物医学检索任务,其基准包括 NFCorpus(Boteva et al., 2016)、TREC-COVID(Voorhees et al., 2021)等。
6.2.Language + Graph
生物医学本体捕获了实体之间丰富的关系类型。类似地,引文链接表征了生物医学论文之间的联系。直观地讲,联合利用文本和此类图信息为 QA 中的多跳推理铺平了道路。例如,Yasunaga 等人 (2022a) 建议分别使用 LLM 和 GNN 来编码文本和本体信号,并对其进行深度融合(类型 3.C);Yasunaga 等人 (2022b) 将两篇链接论文的文本片段连接在一起,并将该序列输入 LLM 进行预训练,这本质上是附加元数据邻居(即参考)作为 MLM 的上下文(类型 1.B)。这两种方法都显示出对需要复杂推理的 QA 任务的显着改进。
6.3.Language + Vision
生物医学文本-图像对通常来自两个来源:
-
医学报告,例如胸部 X 光片(例如 MIMIC-CXR (Johnson 等人,2019))和病理报告(Huang 等人,2023b);
-
从生物医学论文中提取的图形标题对(例如 ROCO (Pelka 等人,2018) 和 MedICaT (Subramanian 等人,2020))。
-
大多数生物医学视觉语言模型都利用 CLIP 架构(Radford 等人,2021),其中文本编码器和图像编码器联合训练,通过对比学习 (TYPE 3.D) 将配对的文本和图像映射得更近。文本编码器的选择从 BERT和 GPT-2演变为 LLaMA和 LLaMA-2,而图像编码器从 ResNet演变为 ViT和 Swin Transformer。MLM、MASK图像建模和文本-文本/图像-图像对比学习(即通过在语言/视觉模态中创建增强视图)有时被用作辅助预训练任务。
-
除了 CLIP 之外,人们还探索了其他通用领域的视觉语言架构,例如 LLaVA、PaLM-E(Tu 等人,2024)和 Gemini(Saab 等人,2024)。例如,LLaVA-Med(TYPE 2.D)将图像编码为多个视觉标记,并将它们添加到文本标记前面作为 LLM 输入。这些模型的评估任务包括图像分类、分割、对象检测、视觉问答、文本到图像/图像到文本检索和报告生成,其基准包括 CheXpert(Irvin 等人,2019)、PadChest(Bustos 等人,2020)、SLAKE(Liu 等人,2021a)等。
6.4.Protein, DNA, RNA, and Multiomics
FASTA 格式 (Lipman 和 Pearson,1985) 自然地将蛋白质表示为氨基酸序列,将 DNA/RNA 表示为核苷酸序列,从而使模型能够将它们视为“语言”。此类序列的代表性资源包括 UniRef (Suzek 等人,2015) 和 Swiss-Prot (Bairoch 和 Apweiler,2000)(用于蛋白质)、GRCh38 (Harrow 等人,2012) 和 1000 基因组计划 (Consortium,2015)(用于 DNA),以及 RNAcentral (Consortium,2019)(用于 RNA)。
仅编码器的蛋白质、DNA 和 RNA LLM(类型 1.D),例如 ESM-2(Lin 等人,2023b)、DNABERT(Ji 等人,2021)和 RNABERT(Akiyama 和 Sakakibara,2022),采用类似 BERT 的架构和 MLM 作为预训练任务(即预测掩蔽的氨基酸、核苷酸、k-mer 或密码子);仅解码器的模型,例如 ProGen(Madani 等人,2023)和 DNAGPT(Zhang 等人,2023a),利用类似 GPT 的架构和下一个标记预测作为预训练任务。还有一些研究联合考虑了文本和蛋白质模态。例如,ProtST (Xu et al., 2023b) 通过对比学习 (TYPE 3.B) 将蛋白质序列与其文本描述(即名称和功能)进行匹配;BioMedGPT (Luo et al., 2023c) 首先将蛋白质投影到 token 上,然后将这些 token 与文本一起输入 LLaMA-2 进行指令调整,与 TYPE 2.D 相似。
现有的多组学 LLM 主要关注单细胞转录组学(例如 scRNA-seq)数据,例如单个细胞内基因的表达水平 (Franzén et al., 2019)。除了基于 BERT(例如 Geneformer (Theodoris et al., 2023))和基于 GPT(例如 scGPT (Cui et al., 2024))的架构之外,Performer(Yang et al., 2022a;Hao et al., 2024)因其在处理长 scRNA-seq 数据方面的线性注意力复杂性而被广泛使用。
6.5.Applications in Scientific Discovery
与化学类似,LLM 可以实现生物学和医学研究实验的自动化。例如:
- CRISPR-GPT(Huang 等人,2024 年)通过领域知识增强了 LLM 代理,从而增强了基于 CRISPR 的基因编辑实验的设计过程。
此外,LLM 可以编码生物序列以捕获结构特性、指导蛋白质设计并评估病毒变体的进化适应性。例如:
- ESM-1b(Rives 等人,2021 年)和 ESM-2(Lin 等人,2023b)无需昂贵且耗时的实验即可准确预测蛋白质结构;
- Feruz 和 Höcker(2022 年)对蛋白质家族的 LLM 进行了微调,从而可以生成高度发散但仍具有潜在功能的新序列;
- Hie 等人(2021 年)开发了可以预测病毒逃逸突变的 LLM。
7 LLMs in Geography, Geology, and Environmental Science (Table A6)
7.1.Language
地球科学研究论文、气候相关新闻文章、维基百科页面、企业可持续发展报告、知识库(例如 GAKG(Deng 等人,2021 年))和兴趣点 (POI) 数据(例如 OpenStreetMap(Haklay 和 Weber,2008 年))构成了地球科学 LLM 的预训练语料库。
对地球科学 LLM 的初步研究集中于使用 Transformer 编码器主干(TYPE 1.A,例如 ClimateBERT(Webersinke 等人,2021 年)、SpaBERT(Li 等人,2022b 年)和 MGeo(Ding 等人,2023 年))预训练双向 LLM。例如,SpaBERT 和 MGeo 分别对一系列地理位置执行 MLM 以进行地理实体链接和查询 POI 匹配。
最近,相关研究集中于扩大地球科学领域解码式自回归 LLM(TYPE 2.A,例如 K2(Deng 等人,2024 年)、OceanGPT(Bi 等人,2023b 年)和 GeoGalactica(Lin 等人,2024b 年))。例如,K2 和 OceanGPT 分别通过监督微调将 LLaMA 应用于地球科学和海洋科学,微调使用由人类专家策划的领域特定指令和/或由通用领域 LLM 增强。此类模型的评估是在地球科学基准上进行的,例如 GeoBench(Deng 等人,2024 年)和 OceanBench(Bi 等人,2023b 年),其中包含广泛的任务,包括问答、分类、知识探索、推理、总结和生成。
7.2.Language + Graph
一些地球科学应用涉及图信号,例如异构 POI 网络和知识图谱。为了联合处理此类信号和文本,ERNIE-GeoL(Huang 等,2022)引入了基于 Transformer 的聚合层,以在基于 BERT 的架构中深度融合文本和 POI 信息;PK-Chat(Deng 等,2023)将 LLM 与知识图谱上的指针生成网络相结合,构建知识驱动的对话系统。
7.3.Language + Vision
鸟瞰图与位置描述一起描绘了城市区域。为了联合处理语言和视觉模式,UrbanCLIP(Yan 等人,2024)考虑使用 CLIP 架构(TYPE 3.D),该架构也被 6.3 小节中提到的生物医学视觉语言模型广泛采用,用于进行文本图像对比学习以进行城市指标预测。
7.4.Climate Time Series
LLM 中使用的直觉和方法也促进了气候基础模型的构建。基于 ERA5(Hersbach 等人,2020 年)和 CMIP6(Eyring 等人,2016 年)气候时间序列数据集,先前的研究利用 ViT 和 Swin Transformer 架构对天气预报的基础模型进行预训练。代表性模型包括 FourCastNet(Pathak 等人,2022 年)、Pangu-Weather(Bi 等人,2023a 年)等。
7.5.Applications in Scientific Discovery
在地理学领域,Wang 等人 (2023b) 和 Zhou 等人 (2024) 从可持续性、生活、经济、灾害和环境角度强调了法学硕士在城市规划中的潜力。在地质学领域,除了气候和天气预报外,基础模型还已应用于同时进行地震检测和相位拾取 (Mousavi 等人,2020)。在环境科学领域,ChatCli-mate (Vaghefi 等人,2023) 通过提供对气候变化的外部、科学准确的知识的访问来增强 GPT-4,从而构建气候科学对话式 AI。
8 Challenges and Future Directions
在本次调查中,我们汇编了文献,阐明了用于科学 LLM 预训练的数据、架构和任务,以及科学 LLM 如何应用于科学发现的下游应用。特别是,我们强调了在不同领域和模式下科学 LLM 的发展过程中观察到的类似架构、任务和趋势。除了回顾先前的研究之外,我们还提出了几个挑战,以激发对这一主题的进一步探索。
深入研究细粒度主题。大多数现有的科学 LLM 都针对粗粒度领域(例如化学),而一些任务依赖于细粒度主题的高度专业化知识(例如铃木耦合)。当 LLM 在更通用的语料库上进行预训练时,频繁出现的信号可能会主导模型参数空间,而特定领域的尾部知识可能会消失。我们相信,自动整理深入的、以主题为中心的知识图谱(Hope 等人,2021 年)并使用它们来指导生成过程将是解决这一问题的一个有希望的方向。
推广到分布外的科学数据。在科学领域,测试分布偏离训练分布的情况很常见(Zhang 等人,2023f):新发表的论文中不断涌现新的科学概念;在测试过程中可能会出现具有不同支架的未见分子和具有不同肽链数量的未见蛋白质。处理这种分布外的数据对于预训练的科学 LLM 来说仍然是一个挑战。据我们所知,不变学习(Arjovsky 等人,2019 年)可以作为分布外分析的理论基础,如何将其集成到 LLM 预训练中值得探索。
促进值得信赖的预测。 LLM 可能会产生看似合理但实际上并不正确的输出,通常称为幻觉 (Ji et al., 2023),这在化学和生物医学等高风险科学领域尤其危险。为了缓解这个问题,检索增强生成 (RAG) 为 LLM 提供了相关、最新和值得信赖的信息。然而,以前在科学领域的 RAG 研究主要侧重于检索文本 (Xiong et al., 2024) 和知识 (Jin et al., 2024),而科学数据是异构的和多模态的。我们设想,跨模态 RAG(例如,用相关的化学物质和蛋白质指导文本生成)将提供更多机会来进一步提高科学 LLM 的可信度。
9.Limitations
本次调查主要涵盖数学和自然科学领域的法学硕士 (LLM)。我们知道,法学硕士 (LLM) 还可以通过在代表性任务中取得出色表现 (Ziems et al., 2024) 和充当社会模拟实验的代理 (Horton, 2023) 而对社会科学产生重大影响,但由于篇幅限制,我们将这些工作的调查留待将来进行。此外,本文重点关注在科学数据上预先训练或增强领域特定知识以有利于科学发现的法学硕士 (LLM)。有些研究 (Wang et al., 2023g; Guo et al., 2023) 提出了新的科学问题基准数据集,但仅评估了通用法学硕士 (LLM) 的性能,我们没有将这些工作纳入调查。此外,根据我们论文中的分类标准,某些法学硕士 (LLM) 可能属于多个领域或模态类别。例如,BioMedGPT (Luo et al., 2023c) 是针对生物学和化学数据联合进行预训练的;GIT-Mol (Liu et al., 2024) 同时考虑了语言、图形和视觉模式。为了简洁起见,我们仅在一个小节中介绍它们中的每一个。