深度学习（重要知识摘录）

置顶甄知一二

已于 2023-07-23 10:58:55 修改

阅读量373

点赞数 4

分类专栏：深度学习文章标签：神经网络人工智能机器学习

于 2021-06-10 21:06:50 首次发布

本文链接：https://blog.csdn.net/weixin_45880764/article/details/117625383

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Seq2Seq

Seq2Seq一般是通过Encoder-Decoder（编码-解码）框架实现

CTC是狭义的，Seq2Seq是广义的，从结果上来说，CTC是强制的一对一对应关系，Seq2Seq是具有弱约束的多对多对应关系
在这里插入图片描述
Encoder-Decoder模型可以预测任意的序列对应关系，但同时也有一个很大的问题就是从编码到解码的准确率很大程度上依赖于一个固定长度的语义向量c，输入序列到语义向量c的压缩过程中存在信息的丢失，并且在稍微长一点的序列上，前边的输入信息很容易被后边的输入信息覆盖，也就是说编码后的语义向量c已经存在偏差了，解码准确率自然会受到影响。其次在解码的时候，每个时刻的输出在解码过程中用到的上下文向量是相同的，没有做区分，也就是说预测结果中每一个词的的时候所使用的预测向量都是相同的，这也会给解码带来问题。

矩阵求导

总结

常用函数

激活函数

零对称的原因

激活函数最好满足三个特性

零对称
非饱和区域
梯度计算高效

因此对于激活函数使用技巧来说：

使用ReLu，设定合适的学习率
尝试Leaky ReLU
尝试tanh，但不期待它
不使用sigmoid

Sigmoid 和 tanh 两个函数非常相似，具有不少相同的性质。简单罗列如下

优点：平滑
优点：易于求导
缺点：幂运算相对耗时
缺点：导数值小于 1，反向传播易导致梯度消失（Gradient Vanishing）

对于 Sigmoid 函数来说，它的值域是 (0,1)，因此又有如下特点

优点：可以作为概率，辅助模型解释
缺点：输出值不以零为中心，可能导致模型收敛速度慢

ps:为什么要求零对称？

因为w0和w1的更新方向总是相同，可以理解为每次更新都是同时增大或者同时减少
但由于输入值的符号总是为正，所以模型参数可能走类似红色折线的箭头。
在这里插入图片描述

正则化

细节解释

L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）

L1正则化是指权值向量w ww中各个元素的绝对值之和
L2正则化是指权值向量w ww中各个元素的平方和然后再求平方根
L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择

一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合
L1对异常点不太敏感，而L2则会对异常点存在放大效果（如果误差>1的话，那么平方后误差就会被放大很多）
对于新数据的调整，L1的变动很大，而L2的则整体变动不大

梯度下降法

梯度方向是函数值最速上升方向，那么负梯度方向是函数值最速下降方向
归一化。由于样本不同特征的取值范围不一样，可能导致迭代很慢，为了减少特征取值的影响，可以对特征数据标准化，这样特征的新期望为0，新方差为1，迭代速度可以大大加快。

批量梯度下降法,是梯度下降法最常用的形式，具体做法也就是在更新参数时使用所有的样本来进行更新

随机梯度下降法，其实和批量梯度下降法原理类似，区别在与求梯度时没有用所有的m个样本的数据，而是仅仅选取一个样本j来求梯度

当损失函数很不规则时，随机梯度下降算法能够跳过局部最小值。虽然随机性可以很好的跳过局部最优值，但同时它却不能达到最小值。解决这个难题的一个办法是逐渐降低学习率。开始时，走的每一步较大（这有助于快速前进同时跳过局部最小值），然后变得越来越小，从而使算法到达全局最小值。这个过程被称为模拟退火.

优化算法

总结

动量梯度下降法-Momentum：以前梯度的指数加权平均，指数加权平均的思想是现在的梯度方向和之间的梯度有指数加权的关系，也就是弱化了在dw处的梯度的作用，如果梯度在某一方向出现震荡，那么指数加权平均可以让这些震荡加起来上下抵消，加速了不震荡方向的迭代.
加速梯度-NAG：在原始形式中，Nesterov Accelerated Gradient（NAG）算法相对于Momentum的改进在于，以“向前看”看到的梯度而不是当前位置梯度去更新。经过变换之后的等效形式中，NAG算法相对于Momentum多了一个本次梯度相对上次梯度的变化量，这个变化量本质上是对目标函数二阶导的近似。由于利用了二阶导的信息，NAG算法才会比Momentum具有更快的收敛速度
AdamGrad：自适应学习率，根据前几轮迭代时的历史梯度值，但是神经网络往往停的过快，因为学习率降低的太快。速度变慢了一点，并且从未收敛到全局最优
RMSprop：通过仅累积最近迭代（而不是从训练开始以来的所有梯度）的梯度来修正AdamGrad的问题
Adam：自适应矩估计，动量优化一样，它追踪过去梯度的指数衰减平均值，就像 RMSProp 一样，它跟踪过去平方梯度的指数衰减平均值

MLP

摘录

使用感知机一个最大的前提，就是数据是线性可分的。

如果数据线性可分，这样的超平面一般都不是唯一的，也就是说感知机模型可以有多个解

正确分类的样本满足 yθ∙x>0，而错误分类的样本满足 yθ∙x<0。我们损失函数的优化目标，就是期望使误分类的所有样本，到超平面的距离之和最小

采用随机梯度下降，这意味着我们每次仅仅需要使用一个误分类的点来更新梯度

DNN

总结

这里公式推导讲的不错

DNN有时也叫做多层感知机（Multi-Layer perceptron,MLP）
在这里插入图片描述

前向传播

反向传播

详细推导

详细推导2

BP算法存在的问题：

（1）梯度消失：对于幅度为1的信号，在BP反向传播梯度时，每传递一层，梯度衰减为原来的0.25。层数一多，梯度指数衰减后低层基本上接受不到有效的训练信号

（2）收敛到局部最小值：尤其是从远离最优区域开始的时候（随机值初始化会导致这种情况的发生）；
（3）一般，我们只能用有标签的数据来训练：但大部分的数据是没标签的，而大脑可以从没有标签的的数据中学习

CNN

概述

特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元（filter）组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核（kernal）

在这里插入图片描述

权值共享就是，一张特征图，是由同一个卷积核扫描一张原图得到的，共享体现在原图每个小的感知野共享同一个卷积核

优点：通过相同的卷积核实现全局共享，减少网络各层之间的连接，同时又降低了过拟合的风险
在这里插入图片描述
如果卷积核的输入图inputX为MxNx大小，卷积核为MwNw大小，那么输出图Y为（Mx-Mw+1）*（Nx-Nw+1）大小

卷积图的计算方法

在这里插入图片描述

RNN

卷积神经网络、人工神经网络，他们的前提假设都是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。

但现实世界中，很多元素都是相互连接的，输出依赖于当前的输入和记忆

具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

在计算隐藏层输出时，U\W\b是一样的，即每个步骤的参数是共享的
在这里插入图片描述

LSTM

解释的非常清楚

RNN公式ht=f(Uxt+Wht-1+b) ，RNN中每一层的隐状态都由前一层的隐状态经过变换和激活函数得到，反向传播求导时最终得到的导数会包含每一步梯度的连乘，会导致梯度爆炸或者梯度消失，所以RNN很难处理长程依赖问题，无法学到序列中蕴含较长时间间隔的规律，LSTM在计算隐状态时用加法代替了这里的迭代变换，可以避免梯度消失，使网络学到长程的规律。
在这里插入图片描述

水平线d看作是主干道，通过加法，ht可以在这里传播，较远的梯度也可以在长程上传播
遗忘门a输入是当前时刻的输入、上一时刻的隐状态，输出是（当前时刻的输入+上一时刻的隐状态）*sigmoid
记忆门b输入是当前时刻的输入、上一时刻的隐状态，输出是上一时刻的隐状态sigmoid、上一时刻的隐状态tanh，两项逐点相乘
最终水平线上的输出=上一时刻输出*遗忘门结果+记忆们逐点相乘的结果
隐状态输出门c 输出隐状态

交叉熵、最大似然、KL散度

在这里插入图片描述

甄知一二

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
深度学习（重要知识摘录）

Seq2SeqSeq2Seq一般是通过Encoder-Decoder（编码-解码）框架实现CTC是狭义的，Seq2Seq是广义的，从结果上来说，CTC是强制的一对一对应关系，Seq2Seq是具有弱约束的多对多对应关系Encoder-Decoder模型可以预测任意的序列对应关系，但同时也有一个很大的问题就是从编码到解码的准确率很大程度上依赖于一个固定长度的语义向量c，输入序列到语义向量c的压缩过程中存在信息的丢失，并且在稍微长一点的序列上，前边的输入信息很容易被后边的输入信息覆盖，也就是说编码后的语义
复制链接

扫一扫