Introduction
材料学中的理论和模型大多数是凭专家经验积累总结得来,现如今可使用数据驱动的方法通过AI、计算模拟等来自动构造大数据中的隐式公式,由此寻找对应的范式或理论,而数据驱动方法得出的范式或理论结合已有的专家知识相结合又可产生用于开发、优化模型的先进方法。
目前已有学者通过使用AI来重新发现已知定律,如Langley使用AI重发现了最基本的理想气体三定律;通过空气轨道振荡器和双摆实验发现了哈密顿方程、拉格朗日方程和运动方程;通过使用了AI技术的特征(描述符)选择能够从目标公式生成的数据中重发现该物理定律;欧阳润海开发了SISSO系统以数据驱动的方法来识别材料属性的可解释物理描述符。
当前许多材料数据库的大增长来源于高通量实验和计算的发展和材料领域的数据共享。但目前AI、ML中被广泛使用的黑箱模型不一定适用于发现、准确理解材料信息中的潜在定律
SR为AI、ML方法中常被用来发现数据中的潜在模型 ,其使用常需要基于进化计算,如遗传算法(GP)。GP通过最优候选解的迭代选择实现,一个候选解称为个体,每次迭代后的一众个体称为一代,父母代通过筛选优秀个体和添加新个体产生新一代。GP中的个体以树的形式表示,其非叶子结点为操作符,叶子结点为变量或常量。其一众解通过个体评估、选择和 杂交变异引入的新个体 来不断迭代。
Showcase examples of SR applications
1. 三角函数拟合实验
- 任务:使用GP找到描述或近似 三角函数 g ( x ) = 25 sin ( x / 3.0 ) g(x)=25\sin(x/3.0) g(x)=25sin(x/3.0) 的合适数学表达式,其中 x ∈ [ 0 , 9 ] x \in [0,9] x∈[0,9]
- 结果:综合考量拟合质量和公式复杂度, − x 2 + 349 36 x -x^2+\frac{349}{36}x −x2+36349x为近似 g ( x ) g(x) g(x)的表达式之一
- 说明:使用的GP算法的generations和population size为预设参数,它们的值取决于该任务的复杂度和可用的计算资源。其中操作符为{+,-,×,÷}。此处的复杂度为表达式中用到的终端结点和操作符数量。
- 结论:GP的效率和所创建公式的性能在很大程度上取决于除终端集外使用的操作符集。
2. Sette and Boullart预测纱线的可纺性和纱线强度偏离纤维质量和机器设置
- 结论:最终表达式中出现的是部分原始特征,而不是全部原始特征,由此可见特征选择的重要性
3. Ratle and Sebag 重新发现两个粘弹性系统的Kelvin-Voigt模型实验、不同材料的压痕实验
- 结论:在神经网络中引入维度分析(DA)可以提升网络的预测性能,在进化算法中引入DA算法能得到加速,算法发现的表达式也更准确
SR applications in materials modeling and simulations
- 利用GP进行多尺度和跨尺度模拟
- 有学者对EPR方法进行了扩展,采用多目标遗传算法,在适应度和函数复杂度之间达到权衡结果,即适应度最大化和模型复杂度最小化。
Concluding remarks
- 当SR与领域知识结合可得到更科学有意义的模型,而且模型使用更少的计算资源和时间
- 除了拟合质量外,结果公式的低复杂度使公式对数据噪声具有更强的鲁棒性,当预测公式系数较少时,SR可能不需要大量数据进行训练
- 当领域知识缺乏或不足时,SR仍然面临巨大挑战,SR结果模型可能没有物理意义,甚至难以解释。
- 在高维终端上进行数学运算的SR算法的发展可能需要材料信息界更多的关注