深度学习知识点整理(三)——CNN / CNN网络举例 / RNN / LSTM / 迁移学习

6-CNN-3

(理解卷积过程)

计算卷积后特征图尺寸(步长1

原图大小32,核5,则(32-5)/步长+1=28

CNN层次序

卷积层->ReLu层->池化层(下采样,压缩数据和参数数量)->全连接层

边界0填充

不丢弃原图信息,保持特征图与原图大小一致。核大小3 5 7 分别填充宽度1 2 3

计算卷积核参数数量

如核大小5,则5×5×3+1 (3通道,1个偏置)

池化层

7-CNN-case study

LeNet-5

采用平均池化;

Alexnet创新点

采用ReLU激活函数;dropout避免过拟合;池化使用max(之前是平均)避免模糊,提升特征丰富性;进行了数据增强(随机截取)

VGG采用连续几个33卷积核代替原来较大卷积核

3个33卷积核感受野相当于一个77,前者有3个非线性操作,而后者只有一个,前者对于特征学习力更强;参数总量少,训练容易;加深了网络深度

VGG 1×1卷积核左右

不影响感受野的情况下,增加模型非线性

goolenet

使用1x1的卷积来进行升降维;在多个尺寸上同时进行卷积再聚合(多路径)

ResNet

更深;增加跳跃连接,使网络层更易表示恒等映射

网络设计原理

减少卷积核尺寸;使用11卷积核来增减特征图数量;使用跳跃连接或者创建网络多个路径

7-CNN style transfer

风格迁移思想

找到图片,内容上贴近内容图,风格上贴近风格图

content/style loss:测量合成图的风格和风格图风格的在style层的风格损失

低层提取特征与style联系更大,高层与content联系更大

我们可以使用现成的模型,如VGG,其中的参数(权重、偏置)已经给出,不需要训练。所以训练的是input而非weights

迁移学习

不同数据集在数据分布等方面有差异,有的数据会过期,

充分利用之前标注好的数据(废物利用),同时又保证在新的任务上的模型精度,就是迁移学习内容

目标和思想

将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中

基于实例

从源领域中选出对目标领域有用的实例,对原数据进行有效的权重分配,使之接近目标领域的实例分布

基于特征

分为基于特征选择:找出源领域与目标领域之间共同的特征表示,然后利用这些特征进行知识迁移

基于特征映射:将源领域和目标领域的数据从原始特征空间映射到新的特征空间中去

基于共享参数

找到源数据和目标数据的空间模型之间的共同参数或者先验分布

数据分类

target data:跟当前任务直接相关

source data:跟当前任务不直接相关

labelled和unlabelled的区别就是是否带有标签

分类

在这里插入图片描述

Model Fine-tuning:根据源数据训练模型,然后根据目标数据调整模型。target data只有一点,source data很多。

a)保守训练:使用source data建立一个model,在建立最终model的时候加入一些限制(例如正则化),使两个model“接近”

b)Layer transfer:使用source data训练出一个模型之后,直接copy其中的某几个参数或layer,其余的layer靠target data训练,从而构建最终模型。

Multitask Learning:若拥有一样的input feature,构建后续模型时分不同的网络;否则,共享中间某几个layers

在这里插入图片描述

Domain-adversarial training(对抗训练):Feature extractor目的是将特征分开,label predictor对来自源域的数据进行分类,尽可能分出正确的标签,domain classifier对特征空间的数据进行分类,尽可能分出数据来自哪个域。网络不断最小化域判别器的损失,类似于GAN

在这里插入图片描述

Zero-shot learning:利用训练集数据训练模型,使得模型能够对测试集的对象进行分类,但是训练集类别和测试集类别之间没有交集;期间需要借助类别的描述,来建立训练集和测试集之间的联系,从而使得模型有效

8-RNN

RNN类型

一到一;一到多(标题生成);多到一(情绪分类);多到多(翻译);

RNN

原网络输入单词(向量表示),输出词汇的概率分布。RNN隐藏层的输出被储存在memory,memory可以被看做另一个输入,所以改变输入顺序,结果不同

同样的神经网络被重复使用,每次储存在memory的值不同

Elman Network

将memory与输出分开,context单元承载了上下文状态,只有从memory单元到隐藏单元的权重需要学习

在这里插入图片描述

Jordan Network

存储单元简单地保留过去输出的运行平均值
在这里插入图片描述

9-RNN-2

LSTM三个门

input gate:决定了当前时刻网络的输入x有多少保存到单元状态ct

forget gate:决定了上一时刻的单元状态ct-1有多少保留到当前时刻 ct

output gate:控制单元状态ct有多少输出到当前输出值

LSTM计算过程

(example)

Backpropagation through time (BPTT)

本质还是BP算法,不过基于时间反向传播

RNN损失随时间累加,所以不能只求t的偏导,需要追溯之前所有时刻信息,会导致激活函数导数累乘,进而导致梯度消失或者梯度爆炸。因为RNN只有短期记忆

理想情况下,在t时刻的错误,我们可以从之前的很多步找到某些时间步进行改变。

LSTM可以处理梯度消失,在LSTM中memory和input被相加,而forget gate控制了对过去信息的保留程度,如果选择保留旧状态,梯度接近1,可以缓解梯度消失问题

剪裁策略

将梯度剪裁到一个最大值,防止梯度爆炸

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值