小样本机器学习在材料学的应用[论文学习]

前言:虽说换了专业但是能做到与先前专业相关的工作,此乃万幸!本文章引用自《Small data machine learning in materials science》1 和微信公众号的文章“【机器学习论文】npj comput. mater.:材料科学中的小数据机器学习”2并加以个人的理解和补充将内容更完整适合学习。

该思维导图为整篇论文的大致描述。思维导图之后,会逐一详细介绍,以备我后期复习忘记。
思维导图

研究背景

机器学习主要通过使用数据或先前的经验来优化计算机程序的性能。与实验和经验的试错方法相比,可以在不了解潜在物理机制的情况下,从可用数据中快速获得规律和趋势,以指导材料的开发。其中,数据是机器学习模型的基石,它从源头上直接决定了模型的性能。然而,在材料科学领域,一些关于数据的问题值得深入思考,很少有关于数据大小的具体量化指标来确定数据的大小。在探索和理解因果关系方面,用小数据构建的模型的不确定性评估比大数据更简单。但由于数据规模小、特征维数过高或过低,小数据往往会导致数据和模型不平衡、拟合过度或拟合不足的问题。因此,上海大学李敏杰和陆文聪等人结合前沿研究成果,介绍机器学习辅助材料设计和发现的一般过程,并从三个层面介绍了处理小数据的方法,如下图所示,图片中的七项英文对应的方案皆在思维导图中。

图1 小数据在材料科学中的作用

图1 小数据在材料科学中的作用

材料机器学习的流程

机器学习辅助材料设计和发现的最直接目标之一是应用算法和材料数据来构建材料特征预测模型。如图2所示,材料机器学习的工作流程包括数据收集、特征工程、模型选择和评估以及模型应用。特征工程是机器学习不可分割的一部分。特征工程是指从原始描述子中选择最优描述子子集,采用一系列工程化的建模方法,包括特征预处理、特征选择、降维和特征组合,常用的降维方法包括主成分分析(PCA)和线性判别分析(LDA);最常用的评价方法是K-fold交叉验证(K-fold CV)、留一法交叉验证(LOOCV)。对于回归任务,常用的评价指标包括平均绝对误差(MAE)、平均相对误差(MRE)、均方根误差(RMSE)、相关系数®、预测值与真实值之间的决定系数(R2)。对于分类任务,常用的评价指标包括分类准确率、真正率(TPR)、假正率(FPR)、召回率、准确率等。

明确研究对象和相关特性后,需要收集材料数据。数据通常分为两部分:反映材料性质的目标变量和反映材料本身信息的描述符。目标变量的数据可以从发表的论文、材料数据库、实验室实验或第一性原理计算中收集。描述符可以从微观到宏观分为三个尺度:原子尺度的元素描述符;分子尺度上的结构描述符;以及材料规模的工艺描述符。元素描述符反映了材料的组成信息。元素描述符的获取需要材料的组成化学元素及其化学计量比。结构描述符不仅反映成分信息,还反映材料的2D或3D结构信息,这些信息可以通过描述符生成软件或工具包生成。

图2

图2 机器学习的工作流程

从出版物中提取数据

在材料机器学习工作中,从出版物中收集的大多数数据更多地依赖于人力资源来搜索和阅读出版物进行数据收集。随着自然语言处理和文本挖掘技术的发展,作者探查到了软件ChemDataExtractor
ChemDataExtractor 2.0支持从155篇论文的出版物中提取数据作为评估集,使用从每种化合物中提取的数据和18组嵌套的晶体学特征,在26种不同的期刊中产生了92.2%的总体精度,实现了从出版物到数据驱动方法的无缝集成框架的构建。
Yukari等人开发了一种名为Starrydata2的基于Web的系统,以自动从科学论文的数字和相应样品的化学成分中提取数值数据。Starrydata2 的可视化功能允许以多种格式显示数据文件,包括线图、热图和多个散点图。

材料数据库建设

材料数据具有可靠性要求高、影响因素多、数据分布广等特点,这也是造成材料科学小数据困境的原因之一。材料数据库可以方便地收集碎片材料数据,供用户更快、安全、准确地存储、更新和检索大量数据。许多材料数据库是根据材料的类型建立的,但材料的分类可以根据不同的标准分为许多类型。例如,根据图3材料可以分为四个层次:化学体系、化合物、物质和材料。虽然在材料数据库的建设中面临着许多挑战,但从材料数据库中快速获取数据缓解了数据量小的问题,成为材料机器学习数据收集的重要方式。作者搜集到了许多的数据库在附件里有显示。

图3

图3 材料识别系统

高通量计算和实验

由于高的实验和计算成本,材料数据相当珍贵。但高通量技术的存在使得通过实验或计算方法在短时间内获得大量高质量数据成为可能。如图4所示,高通量计算筛选材料的工作流程通常分为五个步骤:高通量计算和筛选样品的构建;基于热力学稳定性的筛选;基于精度有限的基本描述符的初步筛选;基于高精度描述符的特定筛选;基于其他条件的筛查。
图四

图4 高通量计算筛选的漏斗模型

Hayashi等人开发了一个名为RadonPy的开源Python库,用于使用全原子经典分子动力学(MD)模拟全自动聚合物性质计算,并成功地对1000多种具有广泛热物理性质的非晶态聚合物进行了高通量计算。

算法层面

支持向量机(SVM)

可分为SVR和SVC,前者对于回归任务,后者对于分类任务。SVM的核心思想就是寻找到最优平面进行划分,对于高维的数据可以通过核函数进行降维。

高斯过程回归(GPR)

GPR是一种非参数的方法,由GP先验的非参数方法,对数据进行回归分析。GPR是一个具有泛化能力和可解释性的概率模型。作为一个非参数的高斯过程模型,GPR的复杂性取决于训练数据。GPR的复杂性取决于训练数据。根据高斯过程的特点和核高斯过程和核函数的特点,GPR通常被用于低维和小数据的回归建模。

随机森林

弱分类器进行投票或平均得到最终结果。

梯度增强决策树(GBDT)

由多棵决策树组成的迭代决策树算法。

XGBoost

高效的梯度增强系统,可处理缺失值,减少模型值和实际值的差值,避免过拟合。陆等人从出版物中收集了85个层状双金属氢氧化物的层间间距实验数据,其中68个作为训练集,17个作为测试集;和原子参数从朗的化学手册中收集作为描述符。采用遗传算法结合XGBoost、SVR和人工神经网络(ANN)算法进行特征选择和模型构建。

符号回归

基于遗传编程的机器学习技术,识别潜在的数学表达式。

不平衡学习(只用于分类任务)

针对分类任务可分为:绝对少的数据和相对少的数据。前者:是指少数类本身的数据量相当稀少,导致数据中包含的信息有限,这将使分类器难以捕捉到少数类样本的信息。后者:相对较少的数据意味着少数类样本与多数类样本
相比只占很小的比例,模糊了少数类样本的边界,降低了少数类样本的识别能力。
通过处理角度:分为数据预处理和算法。前者包含采样、欠采样、过采样、混合采样;后者包含聚类、深度学习、代价敏感学习、极限学习机(ELM)。

机器学习策略方面

主动学习(自适应学习)

从大量未标注的数据中选取样本进行标注,使小样本中的信息尽可能地代表大的未标注的信息。步骤:基于标记的训练集训练模型;利用该模型对未标记样本池中的采集函数进行评估;标记采集函数得分最高的数据点;将标记好的数据点加入到训练集中训练模型。重复主动训练、评分、标记和获取的学习步骤,直到模型达到足够的准确性。

迁移学习

在给定的源领域和学习任务中获取知识,以帮助预测模型在目标领域中学习。基于模型的迁移学习通过调整预训练模型的参数来提高预测精度;基于关系的迁移学习是利用关系进行类比迁移;基于样本的迁移学习是直接给不同的样本分配不同的权重来完成迁移。


  1. Xu, P., Ji, X., Li, M. et al. Small data machine learning in materials science. npj Comput Mater 9, 42 (2023). https://doi.org/10.1038/s41524-023-01000-z ↩︎

  2. https://mp.weixin.qq.com/s/pMVZGy7z1QMgCFqaA2iZpg ↩︎

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值