Nature Machine Intelligence|大型语言模型LLM用于分子性质预测科学发现与创新

最新推荐文章于 2025-06-05 22:56:29 发布

Python编程杰哥

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量1.1k

点赞数 12

文章标签：语言模型人工智能自然语言处理安全算法开源大数据

本文链接：https://blog.csdn.net/xx_nm98/article/details/146325181

版权

在这里插入图片描述

1.成果简介

摘要

大型语言模型（LLM）是一种人工智能系统，以自然语言的形式封装了大量知识。这些系统擅长许多复杂的任务，包括创意写作、讲故事、翻译、问答、总结和计算机代码生成。尽管 LLM 已在自然科学领域得到初步应用，但它们在推动科学发现方面的潜力在很大程度上仍未得到探索。在这项工作中，我们介绍了 LLM4SD，这是一个框架，旨在通过从文献中综合知识并从科学数据中推断知识来利用 LLM 来推动分子性质预测的科学发现。LLM 通过从科学文献中提取既定信息来综合知识，例如分子量是预测溶解度的关键。为了进行推理，LLM识别分子数据中的模式，特别是在简化的分子输入线输入系统编码的结构中，例如含卤素的分子更有可能穿过血脑屏障。这些信息以可解释的知识形式呈现，能够将分子转化为特征向量。通过将这些功能与随机森林等可解释模型一起使用，LLM4SD 可以在一系列预测分子特性的基准任务中超越当前最先进的技术水平。我们预计它会提供可解释的和潜在的新见解，有助于分子特性预测的科学发现。

关键词

大语言模型、科学发现、分子属性预测

2.图文导读

图1：用大语言模型驱动的分子预测科学发现流程

目的：展示LLM4SD管道如何利用大语言模型从文献中合成规则、从数据中推断模式，并将这些规则转化为分子特征以训练可解释模型。
展示：流程分为四个阶段：a) 利用预训练知识从科学文献中提炼出预测规则；b) 分析SMILES数据及其标签，从数据中推断重要模式；c) 将规则转换为向量表征以训练传统可解释模型；d) 模型训练后输出规则重要性，揭示预测依据。
结论：该流程整合了大语言模型的知识与推理能力，为分子属性预测提供了一种透明且可解释的科学发现方法。

图2：LLM4SD与各基线模型在四个科学领域任务上的性能比较

目的：展示LLM4SD在生理学、生物物理学、物理化学和量子力学任务中相较于现有最先进模型的优势。
展示：图2a展示分类任务（如生理学和生物物理学）的性能对比，图2b展示回归任务（如量子力学和物理化学）的误差指标比较，红色虚线表示所有基线的平均水平。
结论：LLM4SD在各个领域均表现优于传统基线模型，特别是在回归任务中实现了显著的性能提升。

图3：LLM4SD组件评估：不同大语言模型骨干和知识来源对模型表现的影响

目的：评估不同预训练LLM骨干以及合成知识与数据推断知识各自对LLM4SD整体性能的贡献。
展示：图3a和图3b分别比较了七种LLM骨干在生理学、生物物理学以及物理化学、量子力学任务中的表现；图3c展示了仅用文献合成知识、仅用数据推断知识和两者结合时的平均效果。
结论：结合文献合成与数据推断两种知识能显著提升模型表现；同时，不同LLM骨干在不同领域任务中的表现存在差异，凸显了预训练数据和模型规模的重要性。

图4：LLM生成规则的统计分析与文献验证

目的：通过统计检验和文献回顾，验证由Galactica-6.7b生成的规则在各科学领域中的显著性及其文献支持情况。
展示：图4对四个领域中每个领域两个任务的规则进行了Mann–Whitney U检验或线性回归t检验，同时结合文献检索将规则分为“统计显著且文献支持”、“统计显著但未在文献中发现”以及“统计不显著”三类
结论：大部分生成规则在统计上显著且得到文献支持，同时还揭示了一部分可能的新规则，为未来的科学探索提供了潜在方向。

3.创新点总结

一、大语言模型驱动的知识整合

利用预训练的大语言模型自动从科学文献中提炼出预测规则，并结合数据推断识别关键分子特征，实现从文本知识到数据知识的无缝整合。

二、可解释特征向量生成与建模

将生成的规则转化为可解释的分子特征向量，进而使用如随机森林等传统可解释模型进行预测，不仅提高预测精度，同时揭示了分子结构与属性之间的内在联系。

三、跨领域性能验证与预训练模型比较

在生理学、生物物理学、物理化学和量子力学等多个领域任务上，系统评估并比较了不同大语言模型骨干的表现，展示了预训练数据规模和领域专用预训练对科学发现的重要影响。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述