CS231n 计算机视觉（学习笔记）第七章（0809）

最新推荐文章于 2024-01-14 15:54:40 发布

阿桥今天吃饱了吗

最新推荐文章于 2024-01-14 15:54:40 发布

阅读量188

点赞数

分类专栏：计算机视觉文章标签：神经网络

本文链接：https://blog.csdn.net/yq1271/article/details/108073097

版权

24 篇文章 6 订阅

订阅专栏

SGD存在问题：

在不同方向上抖动
局部极小值/鞍点
随机梯度，时间成本

Nesterov优化：

在SGD中加入一个动量（一个速度）
将梯度加入到这个速度上
具有速度的梯度下降将更加稳定，且能通过鞍点
velocity+gradient=actual step
速度是关于旧速度、梯度、摩擦系数的一个变量

AdaGrad：

优化过程中，保持一个在训练过程中，每一个梯度平方和的估计
每次调整，除以这个平方和
问题是，当时间增大，步长将越来越小
在凸函数时表现很好

RMSProp

优化过程中，保持一个在训练过程中，每一个梯度平方和的估计
训练过程中，让平方梯度逐步下降

Adam：优秀

结合上米娜的两种方法，动量和平方梯度
由于对第一第二动量的初始化，初始步长会很大
一旦参数初始化值不合适，本次尝试将会很难收敛
为了避免，加入偏置矫正项，当前时间步 t

//学习率衰减为二阶超参数
//二阶优化（牛顿步长、海森矩阵）

以上：减少训练误差、最小化目标函数
模型集成and so on

目的：提高单一模型的效果（而非多个模型的均值）
正则化：防止模型在训练集上过拟合，从而得到更好的效果
Dropout：

每次正向传递使用不同的神经元
在全连接层，随机将某些神经元上激活函数的结果置0
在卷积层，随机把整个特征映射置0
避免特征之间的相互适应
类似于，在单一模型中进行集成学习

Batch Normalization

Data Augmentation
数据增强（在不改变标签的情况下，对数据进行转换）

DropConnect
随机将权重矩阵中的一些值置0

Fractional Max Pooling
部分最大池化

Stochastic Depth
随机深度：在训练时只使用部分层，在测试时使用全部层

不需要大的数据集就能够训练一个CNN
预训练

关注