深度学习常用概念

1.Batchnorm 能够加快训练过程,还具有调节噪声的作用。
2.GAN(Generative Adversarial Network)即生成对抗网络,通常由两个神经网络 D 和 G 组成,其中 D 指的是判别器(Discriminator),而 G 指生成网络(Generative Network)。
3.数据扩充是一种技术,通过操作原始数据来增加输入数据。对于图像可以执行以下操作:旋转图像、翻转图像、添加高斯模糊等。
4.Adam每个参数更新可加快收敛速度;动量可避免卡在鞍点上。
5.鞍点是梯度为 0,Hessian 矩阵不定的点,不是极值点。
6.聚类算法:层次聚类,k 均值算法,DBSCAN 算法,OPTICS 算法,谱聚类。
7.可视化特征方法:遮挡输入图像的一部分,看看哪部分对分类的影响最大。
8.Inception 模块的原理:对输入图像用多个不同尺寸的卷积核、池化操作进行同时处理,然后将输出结果按照通道拼接起来。
9.用多个小卷积核串联可以有大卷积核同样的能力,而且参数更少,另外有更多次的激活函数作用,增强非线性。
10.1x1 卷积通道降维,保证卷积神经网络可以接受任何尺寸的输入数据。
11.MaxPooling 能保证卷积神经网络在一定范围内平移特征能得到同样的激励,具有平移不变性
12.反卷积即转置卷积,正向传播时乘以卷积核的转置矩阵,反向传播时乘以卷积核矩阵。
13.dropout工作流程:首先随机删掉网络中一半的隐藏神经元,输入输出神经元保持不变 ;然后把输入 x 通过修改后的网络进行前向传播计算,然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后,在没有被删除的神经元上按照随机梯度下降法更新对应的参数。最后重复这一过程。
14.卷积层有参数,池化层没有参数。经过卷积层节点矩阵深度会改变,池化层不会改变节点矩阵的深度,但是它可以缩小节点矩阵的大小。
15.fine-tuning只微调最后几层神经网络权重, CNN 中更靠近底部的层(定义模型时先添加到模型中的层)编码的是更加通用的可复用特征,而更靠近顶部的层(最后添加到模型中的层)编码的是更专业业化的特征。微调这些更专业化的特征更加有用,它更代表了新数据集上的有用特征。训练的参数越多,过拟合的风险越大。
16.ReLU 函数计算简单,可以减少很多计算量。 避免梯度消失问题,对于深层网络,sigmoid 函数反向传播时,很容易就会出现梯度消失问题(在 sigmoid 接近饱和区时,变换太缓慢,导数趋于 0,这种情况会造成信息丢失)。可以缓解过拟合问题的发生。Relu 会使一部分神经元的输出为 0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。
17.平滑处理(smoothing)也称模糊处理(bluring),主要用于消除图像中的噪声部分,平滑处理常用的用途是用来减少图像上的噪点或失真,平滑主要使用图像滤波。
18.权值共享:以 CNN 为例,在对一张图偏进行卷积的过程中,使用的是同一个卷积核的参数。 一个 3×3×1 的卷积核,这个卷积核内 9 个的参数被整张图共享,而不会因为图像内位置的不同而改变卷积核内的权系数。
19.模型不收敛原因:
没有对数据做归一化。
忘了做数据预处理。
忘了使用正则化。
Batch Size 设的太大。
学习率设的不对。
最后一层的激活函数用的不对。
网络存在坏梯度。比如 Relu 对负值的梯度为 0,反向传播时就是不传播。
参数初始化错误。
网络太深。隐藏层神经元数量错误。
20.过拟合问题:
合适的损失函数
合适的 Mini-batch size
合适的激活函数
合适的自适应学习率
使用动量
早停法(earyly stoping)训练集用来计算梯度、更新权重和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。
权重衰减(Weight Decay)。到训练的后期,通过衰减因子使权重的梯度下降地越来越缓。
Dropout 是正则化的一种处理,以一定的概率关闭神经元的通路,阻止信息的传递。由于每次关闭的神经元不同,从而得到不同的网路模型,最终对这些模型进行融合。
21.GRU 是 Gated Recurrent Units,GRU 只有两个门(update 和 reset),LSTM 有三个门(forget,input,output),GRU 直接将 hidden state 传给下一个单元,而 LSTM 用memory cell 把 hidden state 包装起来。
22.CNN的关键层
输入层,对数据去均值,做 data augmentation 等
卷积层,局部关联抽取 feature
激活层,非线性变化
池化层,下采样
全连接层,增加模型非线性
高速通道,快速连接
BN 层,缓解梯度弥散
23.Tensorflow 是一个通过计算图的形式来表述计算的编程系统,计算图也叫数据流图,可以把计算图看做是一种有向图,Tensorflow 中的每一个节点都是计算图上的一个 Tensor, 也就是张量,而节点之间的边描述了计算之间的依赖关系(定义时)和数学操作(运算时)。
24.sigmoid 缺点:若激活值很大的时候或者很小,激活函数在其区域梯度很小使得训练速度很慢
25.ReLU 缺点:在零的时候不可导,若激活值小于零,梯度为零,使得训练速度很慢,不过这种情况很少发生,有足够多的神经元使得其 z 值大于零。改进:采用含虚弱的 ReLU 激活函数,即若小于零时,也让其有点梯度。比如小于零时,激活函数为:0.01Z。
26.在线性激活函数下,每一层相当于用一个矩阵去乘以 x,那么多层就是反复的用矩阵去乘以输入。根据矩阵的乘法法则,多个矩阵相乘得到一个大矩阵。所以线性激励函数下,多层网络与一层网络相当。
非线性变换完成后相当于对问题空间进行简化,原来线性不可解的问题现在变得可以解了。
27.数据集太小,没有局部相关性则不适合用深度学习。
28.激活函数的属性:
非线性,几乎处处可导,计算简单,非饱和性,单调性,输出范围有限,接近恒等变换,参数少,归一化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值