【源头活水】顶刊解读!Nature子刊 Machine Intelligence(IF 23.8)2024年第6卷第5期(2)...

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!

ed3322168c4a106d49c7bc01dad79a6b.gif

大语言模型(LLM)在化学领域的增强、能力涌现

1.  M. Bran, A., Cox, S., Schilter, O. et al.

Augmenting large language models with chemistry tools. 

Nat Mach Intell 6,525–535(2024). 

https://doi.org/10.1038/s42256-024-00832-8

大语言模型(LLM)在化学领域的增强、能力涌现

大型语言模型(LLMs)在各个领域的表现都非常出色,但在化学相关问题上却遇到了困难。这些模型还缺乏访问外部知识源的能力,限制了它们在科学应用中的实用性。我们介绍了ChemCrow,这是一个为完成有机合成、药物发现和材料设计任务而设计的化学大模型。通过整合18个专家设计的工貝并使用GPT-4作为LLM,ChemCrow增强了LLM在化学方面的表现,并出现了新的能力。我们的代理自主规划并执行了一种驱虫剂和三种有机催化剂的合成,并指导发现了一种新型的色团。我们的评估,包括LLM和专家评估,证明了ChemCrow在自动化多样化化学任务方面的有效性。我们的工作不仅帮助了化学领域专家并降低了非领域专家的障碍,而且还通过弥合实验化学和计算化学之间的差距,促进了科学的进步。

ea04738bd75a77c194e008b06e681880.png

d0c9c01080d8e653dc12da72b20df4fe.gif

蛋白质序列设计、AlphaFold

2.Ren, M., Yu, C., Bu, D. et al. 

Accurate and robust protein sequence design with CarbonDesign. 

Nat Mach Intell 6, 536–547 (2024). 

https://doi.org/10.1038/s42256-024-00838-2

蛋白质序列设计、AlphaFold

蛋白质序列设计对于蛋白质工程至关重要。尽管基于深度学习的方法取得了最新进展,但实现准确和稳健的序列设计仍然是一个挑战。在这里,我们介绍了CarbonDesign,这是一种从AlphaFold成功要素中获得灵感的方法,专门为蛋白质序列设计而开发。CarbonDesign的核心是引入了Inverseformer,它从骨架结构中学习表示,并使用摊销的马尔可夫随机场模型进行序列解码。此外,我们将其他AlphaFold的核心概念整合到CarbonDesign中:一种端到端的网络回收技术,利用蛋白质语言模型中的进化约束,以及一种多任务学习技术,用于生成侧链结构和设计的序列。CarbonDesign在独立测试集上的表现优于其他方法,包括第15届蛋白质结构预测的批判性评估(CASP15)数据集、连续自动模型评估(CAMEO)数据集以及RFDiffusion的从零设计蛋白质。此外,它支持零样本预测序列变体的功能效应,使其成为生物工程应用的有希望的工具。

5d3803aea61019d2782a8ec5a26bca78.png

3e025f46bf33480da4acafc7f9c7526c.gif

专注于RNA的预训练模型

3.Wang, N., Bian, J., Li, Y. et al. 

Multi-purpose RNA language modelling with motif-aware pretraining and type-guided fine-tuning. 

Nat Mach Intell 6, 548–557 (2024). 

https://doi.org/10.1038/s42256-024-00836-4

专注于RNA的预训练模型

预训练语言模型在分析核苷酸序列方面显示出了潜力,然而,一个能够在单一预训练权重集上跨多个任务表现出色的通用模型仍然难以捉摸。在这里,我们介绍了RNAErnie,这是一个基于transformer架构构建的专注于RNA的预训练模型,并采用了两种简单但有效的策略。首先,RNAErnie通过将RNA基序作为生物学先验纳入预训练,并在基础/子序列级别的掩蔽语言建模之外引入基序级别的随机掩蔽,从而增强了预训练。它还将RNA类型(例如,miRNA,lnRNA)作为停用词进行标记,在预训练期间将其附加到序列上。其次,针对在预训练阶段未见过的RNA序列的分布外任务,RNAErnie提出了一种类型引导的微调策略,该策略首先使用RNA序列预测可能的RNA类型,然后将预测的类型附加到序列的尾部,以事后方式细化特征嵌入。我们在七个数据集和五个任务上的广泛评估证明了RNAErnie在监督学习和无监督学习中的优越性。它在分类上比基线高出1.8%的准确率,在相互作用预测上提高了2.2%的准确率,在结构预测中提高了3.3%的F1分数,展示了其在统一预训练基础上的鲁棒性和适应性。

3da0a459903301553e6518a61a708bd9.png

f3a585c18491b1c9033b6f4ae9b34063.gif

分子体系平衡分布预测

4.Zheng, S., He, J., Liu, C. et al. 

Predicting equilibrium distributions for molecular systems with deep learning.

Nat Mach Intell 6, 558–567 (2024). 

https://doi.org/10.1038/s42256-024-00837-3

分子体系平衡分布预测

深度学习的进步极大地改善了分子结构预测。然而,许多对现实世界应用至关重要的宏观观察并不是单一分子结构的功能,而是从结构的平衡分布中确定的。获取这些分布的传统方法,如分子动力学模拟,计算成本高昂,通常难以处理。在这里,我们介绍了一个名为分布图变换器(Distributional Graphormer,简称DiG)的深度学习框架,旨在预测分子系统的平衡分布。DiG受到热力学中退火过程的启发,使用深度神经网络将简单分布转化为平衡分布,条件是分子系统的描述符,例如化学图或蛋白质序列。该框架能够高效地生成多样化的构象,并提供状态密度的估计,速度比传统方法快几个数量级。我们在几个分子任务上展示了DiG的应用,包括蛋白质构象采样、配体结构采样、催化剂-吸附物采样和属性引导的结构生成。DiG在统计理解分子系统的方法论上取得了重大进展,为分子科学领域的新研究机会铺平了道路。

504d22aaf940f50ca528d2515a46abf8.png

f460fc24ef3ab6cd89ba988e5367d731.gif

复杂物理系统、代理模型学习

5.Diaw, A., McKerns, M., Sagert, I. et al. 

Efficient learning of accurate surrogates for simulations of complex systems.

Nat Mach Intell 6, 568–577 (2024). 

https://doi.org/10.1038/s42256-024-00839-1

复杂物理系统、代理模型学习

机器学习方法正在越来越多地被部署来构建复杂物理系统的代理模型,以降低计算成本。然而,当存在噪声、稀疏或动态数据时,这些代理模型的预测能力会下降。我们引入了一种在线学习方法,该方法由优化器驱动的采样支持,它比现有方法有两个优势:它确保模型响应面的所有局部极值(包括端点)都被包含在训练数据中,并且它采用连续的验证和更新过程,当代理模型的性能低于有效性阈值时,会进行重新训练。我们通过使用基准函数发现,优化器指导的采样在局部极值附近的准确性方面通常优于传统采样方法,即使评分指标偏向于评估整体准确性。最后,将该方法应用于密集核物质,证明了可以可靠地从昂贵的计算中使用少量模型评估自动生成高度准确的核状态方程模型的代理。

24c13b0c83efdfc4b6b08681ab6f5bf0.png

8d1502379df42e550fabcd76a0939c40.png本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。6d6a8e6d801d58668adc100ec5c42931.gif

收藏,分享、在看,给个三连击呗!
  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
异常检测是指在大规模数据中发现异常或异常行为的过程。在传统的异常检测方法中,经常会使用基于统计学的方法,如基于阈值的技术或基于规则的技术,来找出与正常模式不一致的样本或事件。然而,这些方法存在一些局限性,比如无法处理非线性关系或隐含的模式,以及对数据的特征进行全面的抽取。 深度分布式时间序列模型则提供了一种创新和强大的方法来处理大规模数据的异常检测问题。这种模型将深度学习和概率建模相结合,能够对数据的分布进行建模,并以此来检测异常。在这种模型中,每个时间点的数据样本都被看作是从一个潜在分布中抽取的,而异常数据点则被认为是与这个分布不一致的。 深度分布式时间序列模型的一个优点是它能够从数据中自动学习分布的特征,而不需要手动提取特征。这使得模型更加灵活和适用于各种不同类型的数据。此外,这种模型还可以处理非线性关系和多变量时间序列数据,进一步提高了其异常检测的准确性和可靠性。 另外,深度分布式时间序列模型还可以处理大规模数据集,并且能够进行实时的异常检测。这是因为该模型可以在分布式系统中进行并行计算,并且具备较低的计算和存储需求。这样一来,无论是对于高速数据流还是对于历史数据集,深度分布式时间序列模型都能快速地进行异常检测。 总的来说,深度分布式时间序列模型在大规模数据的异常检测中具有很大的潜力。它能够自动提取数据分布的特征,适应各种类型的数据,处理非线性关系和多变量时间序列数据,并且能够处理大规模数据集并进行实时的检测。通过应用这种模型,我们可以更加准确地识别出异常行为,帮助我们提高数据安全性和业务运营效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值