来自 PDE 的残差神经网络

吴云理

已于 2022-01-26 09:53:47 修改

阅读量920

点赞数

分类专栏：解释性文章标签：神经网络 pde

于 2022-01-25 14:17:10 首次发布

本文链接：https://blog.csdn.net/wuyuanli_r/article/details/122625693

版权

残差神经网络与常微分方程
参考文献 Deep Residual Learning for Image Recognition

在这里插入图片描述
对输入的向量 x, 经过线性变换后, 再非线性变换, 然后线性变换, 最后加上 x. 写成公式
$\text{F}(x) +x:=W_2\sigma(W_1x) +x.$
$\sigma: \R \to \R$ 是激活函数.

残差主要的作用是避免梯度消失.

输入特征 $X_0=X$ ，得到 $X_1$ , 输入 $X_1$ , 得到 $X_2$ , $\begin{aligned} X_1&:=\mathcal{F}(X_0) +X_0,\\ X_2&:=\mathcal{F}(X_1) +X_1,\\ \vdots\\ X_{n+1}&:=\mathcal{F}(X_n) +X_n.\\ \end{aligned}\tag{1}$

上面是一串残差网络.

对 (1) 做移项处理后, 有
$\frac{X(n+1)-X(n)}{1}:=X_{n+1}-X_n=\mathcal{F}(X_n). \tag{2}$
这可以看成是方程
$\begin{aligned} \frac{\partial X}{\partial t}&= \mathcal{F}(X(t))\\ X(0)&=X_0 \end{aligned}$ 的离散形式.

一串的残差神经网络可以看成是常微分方程的离散形式. 每层神经网络的输出实际上是微分方程的解在某个时刻的值. 这在一定程度上沟通了神经网络与微分方程的联系. $\blue{但是我们还是看得出来这里得问题, 几个特殊点是否能确定唯一的微分方程. (2)式里边仅仅是用了有限个点.}$

残差卷积神经网络与PDE

参考文献 Deep Neural Networks Motivated by Partial Differential Equations

矩阵的卷积运算在本质上上是也是一种特殊的矩阵运算.
$\theta=(\theta_1,\theta_2,\theta_3)$ 是 $R^3$ 中的向量. 对 $\in \R^n$ , 卷积运算
$(\theta_1,\theta_2,\theta_3)*x.$ 实际上是矩阵
$\left( \begin{array}{c} \theta_2&\theta_3&0 & 0 &\cdots &0 &0&0\\ \theta_1& \theta_2&\theta_3&0& \cdots &0&0&0\\ 0&\theta_1& \theta_2&\theta_3& \cdots &0&0&0\\ \vdots &\vdots &\vdots &\vdots &\cdots &\vdots &\vdots &\vdots &\\ 0&&0&0&\cdots&\theta_1& \theta_2&\theta_3\\ 0&&0&0&\cdots&0& \theta_1&\theta_2\\ \end{array} \right)x$

使用 $W(\theta)$ 表示这个矩阵, 于是
$W(\theta)x=(\theta_1,\theta_2,\theta_3)*x.$ 这意味着卷积网络可以有表达为残差网络模式, 称为卷积残差网络.
$\mathcal{F}(\theta,x):=W_2(\theta_3)\sigma(W_1(\theta_1)):=\theta_3*\sigma(\theta_1*x) .$ $\theta$ 即 $\theta_1,\theta_3$ .
通常输入是一堆样本, 即矩阵, 不仅仅是向量. 对卷积作用会使用一个正则化. 令 $\text{BN}(,\theta_2)$ 是参数为 $\theta_2$ 的 batch 正则化. 例如对矩阵

最低0.47元/天解锁文章

吴云理

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
来自 PDE 的残差神经网络

残差神经网络参考文献 Deep Residual Learning for Image Recognition对输入的向量 x, 经过线性变换后, 再非线性变换, 然后线性变换, 最后加上 x. 写成公式F(x)+x:=W2σ(W1x)+x. \text{F}(x) +x:=W_2\sigma(W_1x) +x. F(x)+x:=W2σ(W1x)+x.σ:R→R\sigma: \R \to \Rσ:R→R 是激活函数.残差主要的作用是避免梯度消失.**残差卷积神经网络与PDE **对残
复制链接

扫一扫

专栏目录