一、信息
题目:拉格朗日神经网络(LNNs)
作者:Miles Cranmer等
单位:Princeton University
发表: ICLR 2020 Deep Differential Equations Workshop
背景:神经网络模型在物理科学中的应用越来越多,但它们很难学习对称性。
要解决的问题:现有模型如HNN需要正则化坐标系,不能保持守恒定律。
解决方案:提出LNNs,在任意坐标系都可以建模,不限制能量函数的形式,可以应用到图结构和连续系统
二、内容
1.举例
使用拉格朗日量描述双摆这样的动力学系统,左下角是观察到的轨迹(黑色),中间表示Baseline NN和Lagrangian NN
baseline NN是一个多层感知器的结构,由于神经网络无法保持能量守恒,长时间运行会导致能量的损失(红色),lagrangian NN通过学习任意形式的拉格朗日量来更好的捕捉物理定律的本质,从而实现能量守恒,轨迹更加稳定(蓝色)
2.理论
1)拉格朗日量
定义动作:
T是动能V是势能,走S是稳态的路径。定义L=T-V,
系统路径的约束方程:Euler-Lagrange equation
2)参数化拉格朗日下的欧拉-拉格朗日
将上面的约束方程改写成
,这里的
3.方法
用JAX(自动微分)求解欧拉-拉格朗日
需要计算上述的矩阵逆,矩阵逆的尺度为O(d^3),坐标个数为d
初始化:500个隐藏单元的四层神经网络模型,衰减学习率从10^-3开始,批次32,使用softplus激活函数
4.实验
1)模拟双摆轨迹的数据集。
质量和长度为1,学习超过60万个随机初始条件的瞬时加速度
a:左侧讲的短时间角度预测,LNN和Baseline趋势差不多,都接近真实值,右侧是总能量的变化,长时间的预测显示,LNN、基线和真实值的曲线都紧密跟随彼此的变化趋势,表明在这段时间内,所有模型的预测仍然非常相似。
b:显示的是总能量随时间的变化情况,LNN的总能量几乎不变,但是Baseline开始偏离LNN,说明Baseline无法保证能量守恒
下侧图是能量误差与最大势能之比,LNN在长时间时能够很好的保持能量守恒,有优越性。
原因在于:在理想情况下,物理系统的总能量应该守恒。通过将能量误差与最大势能进行比较,可以更清楚地看到模型在保持能量守恒方面的表现。如果能量误差相对于最大势能很小,那么可以认为模型很好地模拟了能量守恒。
2)均匀势中的相对论粒子
狭义相对论对于质量为1,c=1的粒子给出
a:HNN在任意坐标系下的性能,和真实值差异较大
b:HNN在正则化坐标系下的性能,和真实值趋势相同
c:LNN在任意坐标系下的性能,和真实值趋势相同
3)带有拉格朗日图网络的波动方程
为了模拟断开坐标的系统,如网格状系统,完整的拉格朗日量等于拉格朗日密度相加
对于波动的连续过程,都有一个“真实”的数据点与一个由拉格朗日图网络生成的预测数据进行对比。
三、总结
HNN只能使用正则化坐标系且长时间无法保证能量守恒,LNN既可以使用任意坐标系也可以保证能量守恒,通过双摆的角度和能量预测、相对论粒子的速度预测,证明了LNN在保证能量守恒的有效性以及不受坐标系的影响,最后将这种方法应用到了坐标不连通的图网络中