cs231n笔记(4)

1. 两种梯度下降策略

Stochastic Gradient Descent (SGD):
每一次迭代计算mini-batch的梯度,然后对参数进行更新,是最常见的优化方法,公式如下:
L ( W ) = 1 N ∑ i = 1 N L i ( x i , y i , W ) + λ R ( W ) L(W) = \frac{1}{N} \sum_{i=1}^N L_i(x_i,y_i,W)+\lambda R(W) L(W)=N1i=1NLi(xi,yi,W)+λR(W)
∇ W L ( W ) = 1 N ∑ i = 1 N ∇ W L i ( x i , y i , W ) + λ ∇ W R ( W ) \nabla_W L(W)=\frac{1}{N} \sum_{i=1}^{N}\nabla_W L_i(x_i,y_i,W) + \lambda \nabla_W R(W) WL(W)=N1i=1NWLi(xi,yi,W)+λWR(W)
Adaptive Moment Estimation (Adam):
Adam 利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。公式如下:
m t = μ ∗ m t − 1 + ( 1 − μ ) ∗ g t m_t=\mu * m_{t-1}+(1-\mu)*g_t mt=μmt1+(1μ)gt
n t = υ ∗ n t − 1 + ( 1 − υ ) ∗ g t 2 n_t=\upsilon* n_{t-1}+(1-\upsilon)*g_t^2 nt=υnt1+(1υ)gt2
m ^ t = m t 1 − μ t \hat{m}_t=\frac{m_t}{1-\mu^t} m^t=1μtmt
n ^ t = n t 1 − υ t \hat{n}_t=\frac{n_t}{1-\upsilon^t} n^t=1υtnt
Δ θ t = − m ^ t n ^ t + ϵ ∗ η \Delta \theta_t=-\frac{\hat{m}_t}{\sqrt{\hat{n}_t}+\epsilon}*\eta Δθt=n^t +ϵm^tη

2.图像识别两步走策略,输入图像特征的动机

图像识别两步走策略的步骤如下:
1)获取图像特征
2)用分类器将这些特征分类
输入图像特征的动机:可以将无法直接分类的图像转化成可以线性分类的问题

3. 常见的图像特征

1)color histogram:图像像素的直方图
2)HoG: 把图像分割成若干小块,根据边缘部分的像素直方图计算每个小块所显示的局部方向梯度
3)SIFT: 尺度不变特征变换
4)BoW: 将各种小块的图片编码,得到的特征作为字典检索到的值,把所有特征作为一个字典,然后将测试图片与这些特征比对匹配

4. 传统方式与神经网络处理图像问题的区别

传统方式处理图像是人工抓取图像特征然后用分类器进行分类,特征是不变的,只是更新分类器权重。
CNN处理图像问题会训练整个模型的所有层的权重,包括特征提取层。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值