深度学习常用概念

最新推荐文章于 2024-04-23 13:06:59 发布

JIM-207

最新推荐文章于 2024-04-23 13:06:59 发布

阅读量166

点赞数

本文链接：https://blog.csdn.net/weixin_44717598/article/details/117375178

版权

1.Batchnorm 能够加快训练过程，还具有调节噪声的作用。
2.GAN（Generative Adversarial Network）即生成对抗网络，通常由两个神经网络 D 和 G 组成，其中 D 指的是判别器（Discriminator），而 G 指生成网络（Generative Network）。
3.数据扩充是一种技术，通过操作原始数据来增加输入数据。对于图像可以执行以下操作：旋转图像、翻转图像、添加高斯模糊等。
4.Adam每个参数更新可加快收敛速度；动量可避免卡在鞍点上。
5.鞍点是梯度为 0，Hessian 矩阵不定的点，不是极值点。
6.聚类算法：层次聚类，k 均值算法，DBSCAN 算法，OPTICS 算法，谱聚类。
7.可视化特征方法：遮挡输入图像的一部分，看看哪部分对分类的影响最大。
8.Inception 模块的原理：对输入图像用多个不同尺寸的卷积核、池化操作进行同时处理，然后将输出结果按照通道拼接起来。
9.用多个小卷积核串联可以有大卷积核同样的能力，而且参数更少，另外有更多次的激活函数作用，增强非线性。
10.1x1 卷积通道降维，保证卷积神经网络可以接受任何尺寸的输入数据。
11.MaxPooling 能保证卷积神经网络在一定范围内平移特征能得到同样的激励，具有平移不变性。
12.反卷积即转置卷积，正向传播时乘以卷积核的转置矩阵，反向传播时乘以卷积核矩阵。
13.dropout工作流程：首先随机删掉网络中一半的隐藏神经元，输入输出神经元保持不变；然后把输入 x 通过修改后的网络进行前向传播计算，然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后，在没有被删除的神经元上按照随机梯度下降法更新对应的参数。最后重复这一过程。
14.卷积层有参数，池化层没有参数。经过卷积层节点矩阵深度会改变，池化层不会改变节点矩阵的深度，但是它可以缩小节点矩阵的大小。
15.fine-tuning只微调最后几层神经网络权重， CNN 中更靠近底部的层（定义模型时先添加到模型中的层）编码的是更加通用的可复用特征，而更靠近顶部的层（最后添加到模型中的层）编码的是更专业业化的特征。微调这些更专业化的特征更加有用，它更代表了新数据集上的有用特征。训练的参数越多，过拟合的风险越大。
16.ReLU 函数计算简单，可以减少很多计算量。避免梯度消失问题，对于深层网络，sigmoid 函数反向传播时，很容易就会出现梯度消失问题（在 sigmoid 接近饱和区时，变换太缓慢，导数趋于 0，这种情况会造成信息丢失）。可以缓解过拟合问题的发生。Relu 会使一部分神经元的输出为 0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。
17.平滑处理（smoothing）也称模糊处理（bluring），主要用于消除图像中的噪声部分，平滑处理常用的用途是用来减少图像上的噪点或失真，平滑主要使用图像滤波。
18.权值共享：以 CNN 为例，在对一张图偏进行卷积的过程中，使用的是同一个卷积核的参数。一个 3×3×1 的卷积核，这个卷积核内 9 个的参数被整张图共享，而不会因为图像内位置的不同而改变卷积核内的权系数。
19.模型不收敛原因：
没有对数据做归一化。
忘了做数据预处理。
忘了使用正则化。
Batch Size 设的太大。
学习率设的不对。
最后一层的激活函数用的不对。
网络存在坏梯度。比如 Relu 对负值的梯度为 0，反向传播时就是不传播。
参数初始化错误。
网络太深。隐藏层神经元数量错误。
20.过拟合问题：
合适的损失函数
合适的 Mini-batch size
合适的激活函数
合适的自适应学习率
使用动量
早停法（earyly stoping）训练集用来计算梯度、更新权重和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值。
权重衰减（Weight Decay）。到训练的后期，通过衰减因子使权重的梯度下降地越来越缓。
Dropout 是正则化的一种处理，以一定的概率关闭神经元的通路，阻止信息的传递。由于每次关闭的神经元不同，从而得到不同的网路模型，最终对这些模型进行融合。
21.GRU 是 Gated Recurrent Units，GRU 只有两个门（update 和 reset），LSTM 有三个门（forget，input，output），GRU 直接将 hidden state 传给下一个单元，而 LSTM 用memory cell 把 hidden state 包装起来。
22.CNN的关键层：
输入层，对数据去均值，做 data augmentation 等
卷积层，局部关联抽取 feature
激活层，非线性变化
池化层，下采样
全连接层，增加模型非线性
高速通道，快速连接
BN 层，缓解梯度弥散
23.Tensorflow 是一个通过计算图的形式来表述计算的编程系统，计算图也叫数据流图，可以把计算图看做是一种有向图，Tensorflow 中的每一个节点都是计算图上的一个 Tensor, 也就是张量，而节点之间的边描述了计算之间的依赖关系(定义时)和数学操作(运算时)。
24.sigmoid 缺点：若激活值很大的时候或者很小，激活函数在其区域梯度很小使得训练速度很慢
25.ReLU 缺点：在零的时候不可导，若激活值小于零，梯度为零，使得训练速度很慢，不过这种情况很少发生，有足够多的神经元使得其 z 值大于零。改进：采用含虚弱的 ReLU 激活函数，即若小于零时，也让其有点梯度。比如小于零时，激活函数为：0.01Z。
26.在线性激活函数下，每一层相当于用一个矩阵去乘以 x，那么多层就是反复的用矩阵去乘以输入。根据矩阵的乘法法则，多个矩阵相乘得到一个大矩阵。所以线性激励函数下，多层网络与一层网络相当。
非线性变换完成后相当于对问题空间进行简化，原来线性不可解的问题现在变得可以解了。
27.数据集太小，没有局部相关性则不适合用深度学习。
28.激活函数的属性：
非线性，几乎处处可导，计算简单，非饱和性，单调性，输出范围有限，接近恒等变换，参数少，归一化。

JIM-207

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习常用概念

1.Batchnorm 能够加快训练过程，还具有调节噪声的作用。2.GAN（Generative Adversarial Network）即生成对抗网络，通常由两个神经网络 D 和 G 组成，其中 D 指的是判别器（Discriminator），而 G 指生成网络（Generative Network）。3.数据扩充是一种技术，通过操作原始数据来增加输入数据。对于图像可以执行以下操作：旋转图像、翻转图像、添加高斯模糊等。4.Adam每个参数更新可加快收敛速度；动量可避免卡在鞍点上。5.鞍点是梯度为
复制链接

扫一扫