神经网络

最新推荐文章于 2023-09-24 21:27:05 发布

你的名字5686

最新推荐文章于 2023-09-24 21:27:05 发布

阅读量186

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wk19951125/article/details/83446388

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

本文介绍了神经网络的反向传导算法，包括代价函数、权重更新和反向传播过程。同时，探讨了自编码算法的作用、特点及稀疏性的原理与实现，展示了如何在训练中引入稀疏性约束来改进神经网络模型。

摘要由CSDN通过智能技术生成

神经网络

反向传导算法

$m$ 个数据样本 $\left\{ {\left( {{x^{\left( 1 \right)}},{y^{\left( 1 \right)}}} \right), \cdots ,\left( {{x^{\left( m \right)}},{y^{\left( m \right)}}} \right)} \right\}$ ，可以使用批量梯度下降法求解神经网络。

代价函数
- 对于单个样本： $J\left( {W,b;x,y} \right) = \frac{1}{2}{\left\| {{h_{W,b}}\left( x \right) - y} \right\|^2}$
- 对于 $m$ 个样本： $J\left( {W,b} \right) = \left[ {\frac{1}{m}\sum\limits_{i = 1}^m {J\left( {W,b;{x^{\left( i \right)}},{y^{\left( i \right)}}} \right)} } \right] + \frac{\lambda }{2}\sum\limits_{l = 1}^{{n_l} - 1} {\sum\limits_{i = 1}^{{s_i}} {\sum\limits_{j = 1}^{{s_{i + 1}}} {{{\left( {W_{ji}^{\left( i \right)}} \right)}^2}} } }$ ，其中 $n_l$ 表示网络的层数。
  其中第一项为一个均方差项，第二项为规则化项（减小权重幅度，防止过度拟合）。
  注：通常权重衰减的计算不使用偏执项 $b^{\left( l \right)}_i$ ，一般来说如果使用只会对最终的神经网络产生很小的影响。
- 目标：为了使 $J\left( {W,b} \right)$ 达到最小的效果，参数 $W_{ji}^{\left( i \right)}$ 和 $b^{\left( l \right)}_i$ 都会初始化为一个很小的接近0的随机值（ $\left( 0,\varepsilon^2 \right)$ ，其中 $\varepsilon=0.01$ ）
  注：由于 $J\left( {W,b} \right)$ 为非凸函数，可能导致最终收敛到局部最优解。参数要进行随机初始化，不能设置为全0以及相同的值。
- 对 $W$ 和 $b$ 的更新： $W_{ji}^{\left( i \right)}=W_{ji}^{\left( i \right)}-\alpha \frac{\partial }{{\partial W_{ij}^{\left( l \right)}}}J\left( {W,b} \right)$ $b^{\left( l \right)}_i=b^{\left( l \right)}_i-\alpha \frac{\partial }{{\partial b^{\left( l \right)}_i}}J\left( {W,b} \right)$ 其中 $\alpha$ 为学习速率。
  - 反向传播算法
    1. 进行前馈传导计算，利用向前传导公式，得到 $L_2,L_3,...,L_m$ 的激活值
    2. 对于第 $n_l$ 层（输出层）的每个输出单元 $i$ ，计算残差： $\delta _i^{\left( n_l \right)} = \frac{\partial }{{\partial z_i^{{n_l}}}}J\left( {W,b;x,y} \right) = \frac{\partial }{{\partial z_i^{{n_l}}}}\frac{1}{2}{\left\| {y - {h_{W,b}}\left( x \right)} \right\|^2} = - \left( {{y_i} - a_i^{{n_l}}} \right) \cdot f'\left( {z_i^{\left( {{n_l}} \right)}} \right)$
    3. 对 $l=n_l-1,n_1-2,...,2$ 的各层，第 $l$ 层的第 $i$ 个结点的残差计算方法： $\delta _i^{\left( l \right)} = \left( {\sum\limits_{j = 1}^{{s_{l + 1}}} {W_{ji}^{\left( l \right)}\delta _j^{\left( {l + 1} \right)}} } \right)f'\left( {z_i^{\left( l \right)}} \right)$
    4. 计算需要的偏导数： $\frac{\partial }{{\partial W_{ij}^{\left( l \right)}}}J\left( {W,b;x,y} \right) = a_j^{\left( l \right)}\delta _i^{\left( {l + 1} \right)}$ $\frac{\partial }{{\partial b_i^{\left( l \right)}}}J\left( {W,b;x,y} \right) = \delta _i^{\left( {l + 1} \right)}$
  - 一次权重的更新
    1. 对于所有 $l$ ，令 $\Delta {W^{\left( l \right)}}: = 0$ ， $\Delta {b^{\left( l \right)}}: = 0$
    2. 对于 $i = 1, 2, . . ., m$ :
      - 使用反向传播算法计算 ${\nabla _{{W^{\left( l \right)}}}}J\left( {W,b;x,y} \right)$ 和 ${\nabla _{{b^{\left( l \right)}}}}J\left( {W,b;x,y} \right)$
      - 计算 $\Delta {W^{\left( l \right)}}: = \Delta {W^{\left( l \right)}} + {\nabla _{{W^{\left( l \right)}}}}J\left( {W,b;x,y} \right)$
      - 计算 $\Delta {b^{\left( l \right)}}: = \Delta {b^{\left( l \right)}} + {\nabla _{{b^{\left( l \right)}}}}J\left( {W,b;x,y} \right)$
    3. 更新权重： ${W^{\left( l \right)}} = {W^{\left( l \right)}} - \alpha \left[ {\left( {\frac{1}{m}\Delta {W^{\left( l \right)}}} \right) + \lambda {W^{\left( l \right)}}} \right]$ ${b^{\left( l \right)}} = {b^{\left( l \right)}} - \alpha \left[ {\left( {\frac{1}{m}\Delta {b^{\left( l \right)}}} \right)} \right]$

自编码算法与稀疏性

自编码算法
- 作用：进行预训练，为正式训练提供一个好的 $W$ 值。
- 特点
  - 此时使用的数据没有标签
  - 输入输出层个数相同，隐藏层个数少
  - 尝试学习一个 $h_{W,b}\left( x \right) \approx x$ ，逼近一个恒等函数使得输出接近输入。
  - 当隐藏层个数较多时，需要使用稀疏性限制。
稀疏性
- 原理
  - 当神经元的输出接近于1时我们认为它被激活，接近于0则被认为被抑制，那么使得神经元大部分的时间都是被抑制的限制称为稀疏性限制（激活函数为sigmoid）。（激活函数为tanh时输出为-1认为被抑制）
  - 用 $a^{(2)}_j(x)$ 表示在给定输入 $x$ （ $X=(x_1,x_2,...,x_m)$ ）的情况下，隐藏神经元 $j$ 的激活的，则神经元 $j$ 的平均激活度（在训练集上）为： ${\hat p_j} = \frac{1}{m}\sum\limits_{i = 1}^m {\left[ {a_j^{\left( 2 \right)}\left( {{x^{\left( i \right)}}} \right)} \right]}$ 近似添加限制 ${\hat p_j} =\rho$ ， $\rho$ 为稀疏性参数，通常接近于 $0$ （ $0.05$ ），也就是要求 ${\hat p_j}$ 接近 $0.05$ ，隐藏神经元的激活度接近 $0$ 。
- 实现
  - 加入惩罚因子
    - 惩罚因子选择很多，以其中一个为例： $\sum\limits_{j = 1}^{{s_2}} {\log \frac{\rho }{{{{\hat p}_j}}} + \left( {1 - \rho } \right) + \left( {1 - \rho } \right)\log \frac{{1 - \rho }}{{1 - {{\hat p}_j}}}}$ 其中 $s_2$ 为隐藏层中隐藏神经元个数， $j$ 依次代表隐藏层中每一个神经元。以相对熵的形式也可以写为 $\sum\limits_{j = 1}^{{s_2}} {KL\left( {\rho \left\| {{{\hat p}_j}} \right.} \right)}$ 。
    - 当 ${\hat p_j}=\rho$ 时， ${KL\left( {\rho \left\| {{{\hat p}_j}} \right.}\right)}=0$ ，且其值随着 ${\hat p_j}$ 和 $\rho$ 之间差异的增大而单调递增。
    - 最终代价函数为： ${J_{sparse}}\left( {W,b} \right) = J\left( {W,b} \right) + \beta \sum\limits_{j = 1}^{{s_2}} {KL\left( {\rho \left\| {{{\hat p}_j}} \right.} \right)}$ 其中 $\beta$ 控制稀疏性惩罚因子的权重。此时须将权重更新过程中的 $\delta _i^{\left( 2 \right)} = \left( {\sum\limits_{j = 1}^{{s_{3}}} {W_{ji}^{\left( 2 \right)}\delta _j^{\left( {3} \right)}} } \right)f'\left( {z_i^{\left( 2 \right)}} \right)$ 替换为 $\delta _i^{\left( 2 \right)} = \left( {\left( {\sum\limits_{j = 1}^{{s_{3}}} {W_{ji}^{\left( 2 \right)}\delta _j^{\left( {3} \right)}} } \right) + \beta \left( { - \frac{\rho }{{{{\hat p}_i}}} + \frac{{1 - \rho }}{{1 - {{\hat p}_i}}}} \right)} \right)f'\left( {z_i^{\left( 2 \right)}} \right)$ 。

你的名字5686

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。