CS231n 计算机视觉(学习笔记)第七章(0809)

第七章

7.1 Fancier optimization

SGD存在问题:

在不同方向上抖动
局部极小值/鞍点
随机梯度,时间成本

Nesterov优化:

在SGD中加入一个动量(一个速度)
将梯度加入到这个速度上
具有速度的梯度下降将更加稳定,且能通过鞍点
velocity+gradient=actual step
速度是关于旧速度、梯度、摩擦系数的一个变量

AdaGrad:

优化过程中,保持一个在训练过程中,每一个梯度平方和的估计
每次调整,除以这个平方和
问题是,当时间增大,步长将越来越小
在凸函数时表现很好

RMSProp

优化过程中,保持一个在训练过程中,每一个梯度平方和的估计
训练过程中,让平方梯度逐步下降

Adam:优秀

结合上米娜的两种方法,动量和平方梯度
由于对第一第二动量的初始化,初始步长会很大
一旦参数初始化值不合适,本次尝试将会很难收敛
为了避免,加入偏置矫正项,当前时间步 t

//学习率衰减为二阶超参数
//二阶优化(牛顿步长、海森矩阵)

以上:减少训练误差、最小化目标函数
模型集成and so on

7.2 Regularization

目的:提高单一模型的效果(而非多个模型的均值)
正则化:防止模型在训练集上过拟合,从而得到更好的效果
Dropout:

每次正向传递使用不同的神经元
在全连接层,随机将某些神经元上激活函数的结果置0
在卷积层,随机把整个特征映射置0
避免特征之间的相互适应
类似于,在单一模型中进行集成学习

Batch Normalization

Data Augmentation
数据增强(在不改变标签的情况下,对数据进行转换)

DropConnect
随机将权重矩阵中的一些值置0

Fractional Max Pooling
部分最大池化

Stochastic Depth
随机深度:在训练时只使用部分层,在测试时使用全部层

7.3 Transfer Learning 迁移学习

不需要大的数据集就能够训练一个CNN
预训练

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值