Neural Ordinary Differential Equations(NIPS2018)

我们引入了一个新的深度神经网络模型家族。我们不指定隐藏层的离散序列,而是使用神经网络参数化隐藏状态的导数。利用黑盒微分方程解算器计算网络的输出。这些连续深度模型具有恒定的存储成本,根据每个输入调整其评估策略,并且可以明确地用数值精度换取速度。我们在连续深度残差网络和连续时间潜变量模型中证明了这些性质。我们还构建了连续规范化流程,这是一个可以通过最大似然进行训练的生成模型,无需对数据维度进行划分或排序。为了进行培训,我们展示了如何通过任何ODE求解器进行可伸缩的反向传播,而不需要访问其内部操作。这允许在较大的模型中进行端到端ode训练。

从序列变换到神经微分方程

多神经网络体系结构(如 RNN 或残差网络)包含重复的层块,这些层块能够有序保留信息,并通过学习函数在每一步中对其进行更改。一般来说,这种网络可以用下面的方程来描述: 

 

 因此,ht 是时间步长 t 的hidden信息,f(ht,θt)是当前隐藏信息和参数θ的学习函数

当我们添加更多的层、每一步更小的时候会发生什么?在极限的情况下,我们参数化隐藏神经元的连续动态(continuous dynamics),并使用一个神经网络指定的 ordinary differential equation (ODE):

 

 这个值可以由一个黑箱微分方程求解器计算,它评估隐藏神经元动力学f ff在任何需要的地方求解符合精度要求的解.

我们将ODE求解器视为一个黑盒,并使用伴随法计算梯度。这种方法通过在时间上反向求解第二个增强的ODE来计算梯度,并且适用于所有的ODE求解器。这种方法随问题的大小线性扩展,具有较低的内存成本,并显式地控制数值误差。

 

 

这个数量伴随着 ODE 的增加。 

 

 

 所有这三个积分都可以在一个ODE解算器的调用中计算出来,它将原始状态、伴随和其他偏导数连接到一个单独的向量。

连续归一化流

它们可以通过一系列非线性变换将简单的概率密度转换为复杂的概率密度,正如在神经网络中一样。因此,它们利用分布中的变量转换公式(类似于变分)

 

 

 

 

归一化流的一个常见应用是变分自动编码器(VAE),它通常假定潜在变量是高斯分布的。这一假设使得 VAE 的输出结果变差,因为它不允许网络学习所需的分布。对于归一化流,高斯参数可以在「解码」之前转换成各种各样的分布,从而提高 VAE 的生成能力

通过 ODE 生成时间序列模型 

本文提到的第三个应用(可能是最重要的应用),是通过 ODE 进行时间序列建模。作者开始这项工作的动机之一是他们对不规则采样数据的兴趣,如医疗记录数据或网络流量数据。这种数据的离散化常常定义不明确,导致某些时间间隔内数据丢失或潜在变量不准确。有一些方法将时间信息连接到 RNN 的输入上,但这些方法并不能从根本上解决问题。

 

我们提出了一个连续时间,生成的方法建模时间序列。我们的模型用一个潜在的轨迹来表示每个时间序列 

 神经网络函数 f 负责计算从当前时间步长开始的任何时间 t 处的潜伏状态 z。该模型是一个变分自动编码器,它使用 RNN 在初始潜伏状态 z0 下编码过去的轨迹(在下图中为绿色)。与所有变分自动编码器一样,它通过分布的参数(在本例中,满足均值为μ、标准差为σ的高斯分布)来捕获潜在状态分布。从这个分布中,抽取一个样本并由 ODESolve 进行处理。

 使用ode作为生成模型允许我们在连续的时间线上对任意时间点t1…tM做预测

 

 

结论

本文提出了一种非常有趣和新颖的神经网络思维方法。这可能是一篇开启深度学习新进化的里程碑式论文。我希望随着时间的推移,越来越多的研究人员开始从不同的角度来思考神经网络,正如本文所做的那样。

文中的方法是否确实适用于现有的各种模型、是否会被时间证明是有效的,仍有待观察。作者也提到了他们方法的一些局限性:

  • 小批量可能是这种方法的一个问题,然而作者提到,即使在整个实验过程中使用小批量,评估的数量仍然是可以管理的。

  • 只有当网络具有有限的权值并使用 Lipschitz 非线性函数(如 tanh 或 relu,而不是阶跃函数)时,才能保证 ODE 解的唯一性。

  • 前向轨迹的可逆性可能会受到前向模式求解器中的数值误差、反向模式求解器中的数值误差以及由于多个初始值映射到同一结束状态而丢失的信息的综合影响。

作者还提到,他们的方法是不唯一的,残差网络作为近似的 ODE 求解器的想法已经过时了。此外,还有一些论文试图通过神经网络和高斯过程来学习不同的方程。

本文提出的方法的一个重要优点是,在评估或训练过程中,通过改变数值积分的精度,可以自由地调节速度和精确度之间的平衡。此外,该方法也非常适用(只要求神经网络的非线性是 Lipschitz 连续的),并且可以应用于时间序列建模、监督学习、密度估计或其他顺序过程。

### 回答1: 神经常微分方程(Neural Ordinary Differential Equations)是一种新兴的深度学习模型,它将神经网络与常微分方程相结合,可以用来建模时间序列数据和动态系统。相比于传统的神经网络,神经常微分方程可以更好地处理长期依赖和非线性动态系统,并且具有更好的可解释性。该模型已经在图像处理、自然语言处理和物理学等领域取得了很好的效果。 ### 回答2: 神经普通微分方程(neural ordinary differential equations,N-ODEs)是近年来机器学习领域中受到广泛关注的一种新兴模型。N-ODEs 将神经网络扩展为连续时间模型,通过时间连续的方式对神经网络进行了建模,从而在某些应用领域中表现出了很强的优势。 相对于离散时间模型,连续时间模型更符合许多现实世界问题的本质特征,尤其是一些物理系统模型和理论计算模型中。 然而,一般的微分方程模型很难适应复杂的高维数据和非线性问题的建模,在这种情况下,神经网络作为一种现代的高效模型可以解决这种问题。于是N-ODEs的提出,使得神经网络可以被用来解决更多不同类型的问题。 N-ODEs 的核心思想在于将神经网络转换为一个具有时间特性的连续时间模型,即在神经网络连接权重的基础上引入时间变量t。这使得神经网络每个神经元的输入输出和权重的调整都与时间有关。在连续时间模型中,每个神经元都被表示为一个微分方程,而整个神经网络则被表示为多个微分方程联立。这样就将神经网络的拓扑结构和连续时间特性融合在一起。这使得N-ODEs在建模一些非线性、高维的问题时具有比传统神经网络更好的表现力和泛化能力。 N-ODEs 的引入为解决复杂问题提供了一个新的思路,也为神经网络和微分方程研究提供了一个新的方向。它在一些应用领域的表现,如物理模型场景下的建模,证明了它的潜力和可行性。但它也存在一些缺点,如计算效率较低、训练模型的复杂度较高等。因此,继续在N-ODEs理论和应用的相关研究中深入探讨N-ODEs的优化和推广,展望N-ODEs成为更加强大的建模工具。 ### 回答3: 神经常微分方程(Neural Ordinary Differential Equations,简称 NODEs)是一种用于建模复杂神经网络的方法。与传统的深度神经网络不同,NODEs使用常微分方程(Ordinary Differential Equations,简称ODEs)来描述神经网络内部的动力学过程和状态变化。 NODEs的基本思想是将一个复杂的神经网络模型转化为一个连续的、非线性的微分方程,通过求解微分方程得到神经网络的输出。这种方法的优点是能够减少网络的参数数量,提高模型的稳定性和泛化性能。NODEs还能够对数据进行连续时间处理,可以通过微分方程来模拟神经网络的动态过程,更好地理解神经网络的内在变化。 NODEs的理论基础是 ODE神经网络,ODE神经网络是一个使用ODE来表达层之间非线性映射的深度神经网络。将每个神经网络层的输入输出视为ODE函数的参数和值,在通过求解ODE函数的过程中获得输出值。相比于传统的神经网络结构,ODE神经网络能够更好的处理时间序列数据,同时具有更好的可解释性。 NODEs与ODE神经网络的不同在于,NODEs的输出不仅仅是一个函数值,而是整个ODE函数本身。这样,NODEs能够将每个神经网络层的输入输出对应为ODE函数的初始条件和解。通过不断求解ODE模型,得到的连续函数可以方便地应用于各种实际问题,从而极大地扩展了神经网络在科学研究和工程应用方面的应用范围。 总的来说,NODEs代表了对神经网络模型的一种新的理解和描述方法,它不断拓展着神经网络在理论研究和应用领域的应用空间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值