摘要
【目的】新科研范式下,基于大数据的人工智能技术为加速新材料设计与发现提供了新的方法与视角,为材料领域研究人员提供了一个可用的材料智能设计平台,对于新材料的发现与性能优化具有重要意义。【方法】本文提出一种基于数据驱动的材料智能设计平台的整体架构,阐述应用平台开展新材料设计和优化的关键技术及相关工具,并给出该平台在材料领域的应用案例。【结果】材料智能设计平台及其应用加快了新材料设计与性能优化的进程,同时也为科研人员提供了一种交互式、插件式的开发环境。【局限】材料领域数据的多源异构、样本小、含噪声且数据关系复杂等特点给模型训练效果产生一定的影响,未来希望在数据规范和小样本训练方面进行更多探索。【结论】本文所提出的材料设计平台为材料领域实现科研范式变革提供了理论依据和示范作用。
关键词: 数据驱动; 人工智能模型; 特征计算; 材料设计平台; 科研范式
引言
材料科学与技术是国民经济、社会进步和国家安全的物质基础与先导,其发展依赖于材料科学数据。材料科学数据是指在材料研究过程中收集和生成的各种数据,包括材料的结构、物化性质、应用指标等数据。材料科学数据的有效利用对于新材料的发现和设计、性能优化等具有重要意义。近年来,随着信息化设施和技术的快速发展,世界各国相继提出了材料发展的相关计划,首先是2011年6月美国政府正式发布了“为全球竞争力的材料基因组行动计划”(Materials Genome Initiative (MGI) for Global Competitiveness)[1],随着该计划的实施,世界各国也相继提出了针对各自国家的材料基因组计划,我国在“十三五”期间也提出了针对我国材料发展的材料基因组计划和实施专项,期望在高科技领域的国际竞争中处于主动地位,建立材料基因研究模式的国家级新型材料研发体系。该计划的发展建立了一大批支持高通量计算、高通量实验的计算和实验平台,尤其是在计算平台方面表现出了明显的优势,为新材料设计与性能优化提供了理论基础和先验性指导。同时,随着计算平台的应用和推广以及算法的不断更新,大量的计算数据库相继报道并开放给用户使用,包括美国的Materials Project[2]、AFLOW[3]和OQMD[4],欧洲的NOMAD[5]、MaterialsCloud[6]和AiiDA[7]、中国的MatCloud[8]、Atomly.net[9]和MIP (Materials Informatics Platform)[10]等。
利用已有数据库,借助人工智能技术构建材料结构与性能之间的关联关系,发现和推荐出性能优异的新材料已逐渐成为当前材料领域开展相关研究的新型研究范式。典型的材料数据应用案例,当属哈佛大学基于几十年积累的化学反应数据,结合人工智能技术发现了一系列优化的化学反应,从而获取一系列新材料,该工作被国际材料界称为“Learning from Failure”的典型案例[11]。自此,材料科学数据的应用更加受到研究人员的关注,近年来,基于已有数据资源,利用人工智能技术在超导、量子、拓扑以及光电等领域发现和设计了一大批新型材料[12⇓⇓⇓⇓⇓-18],部分材料已获得实验验证,有望应用在锂电池、芯片制造等多个领域。材料科学数据具有多源异构、维度高、样本小、含噪声且数据关系复杂的特点,为数据的有效利用带来了一定的困难。因此,如何高效地利用材料科学数据,是当前材料科学领域面临的重要问题之一。
目前,各研究组大都根据已有的数据特点发展相关的模型和算法,或基于已有的模型对数据进行补充或格式转换以满足模型训练的要求。另外,材料结构表征的准确性是影响模型预测精度的关键因素之一,目前对材料结构特征的表征方法大致包括:库仑矩阵、拓扑描述、局域原子环境表征、结构图等。其中基于距离的库仑矩阵表征方法对数据对齐方式有严格的要求[19],不适用于多体系结构的表征;基于路径指纹的拓扑描述[20],是根据原子类型和它们之间的路径的组合对化学结构进行编码,对小分子结构表征起到很好的效果;基于原子环境的局域环境表征方法,将原子分布及坐标等信息转换为一组描述原子局部环境的函数,通常将这些函数作为神经网络的输入,开展神经网络势函数训练,是目前机器学习势函数训练中常用的材料表征方法[21⇓-23];以原子作为节点信息、键长作为边的结构图表征方法越来越受到材料领域研究人员的青睐,尤其是晶体图卷积神经网络(CGCNN)[24]框架的应用,对材料性能预测精度有很大的提高,随后基于CGCNN,研究人员进一步改进,提出了基于消息传递的神经网络MPNN框架[25],引入注意力机制的GATGNN框架[26],以及包含全局状态属性的MEGNet模型[27]等。
在材料领域,为科研人员提供一个基于数据的材料研发平台,用户无需考虑软件安装与运行,就可实现结构特征提取与模型训练,是材料领域实现新范式变革的一种重要途径。目前已有的平台大多是计算平台的进一步扩展,这些平台可以为用户提供较好的数据支持,同时我们也注意到,这些平台对于用户数据上传或算法修改具有一定的限制,最近,美国南卡罗莱那大学的研究人员提出了MaterialAtlas平台[28],提供了用户使用接口,但是该平台只能进行特定性质的计算,用户无法自定义使用。此外,随着数据量以及模型复杂度的不断增加,对模型训练效率也提出了更高的要求。尽管近年来异构计算系统硬件水平不断提升,但是目前已有软件由于编译环境的差异,无法直接使用或需要不断优化和改进才能充分发挥计算系统的效能。本文基于国产异构计算系统提出并研制了一款数据驱动的材料智能设计平台,该平台集成了目前国际前沿的材料表征算法与模型训练框架,研制了数据处理与优化工具,并通过工作流方式制定了基于数据开展材料筛选的基本流程。用户可使用现有程序,也可以通过后台用户使用方式自定义算法和程序开展研究,该平台为材料领域科研范式变革与应用创新提供了可复制的研发模式。
1 材料智能设计平台
数据驱动的材料智能设计平台是基于人工智能平台架构的专用平台,主要用于新材料的筛选与设计。用户通过浏览器访问该云服务平台,无需在本地进行安装和部署。该平台提供了模块化的应用服务,支持数据集上传和处理、特征计算、模型训练与推理等多个模块,并且可以支持多模块的流程化使用。
数据集方面,该平台为用户提供了多个材料数据库,包括无机晶体材料数据库ICSD20