1. 两种梯度下降策略
Stochastic Gradient Descent (SGD):
每一次迭代计算mini-batch的梯度,然后对参数进行更新,是最常见的优化方法,公式如下:
L
(
W
)
=
1
N
∑
i
=
1
N
L
i
(
x
i
,
y
i
,
W
)
+
λ
R
(
W
)
L(W) = \frac{1}{N} \sum_{i=1}^N L_i(x_i,y_i,W)+\lambda R(W)
L(W)=N1∑i=1NLi(xi,yi,W)+λR(W)
∇
W
L
(
W
)
=
1
N
∑
i
=
1
N
∇
W
L
i
(
x
i
,
y
i
,
W
)
+
λ
∇
W
R
(
W
)
\nabla_W L(W)=\frac{1}{N} \sum_{i=1}^{N}\nabla_W L_i(x_i,y_i,W) + \lambda \nabla_W R(W)
∇WL(W)=N1∑i=1N∇WLi(xi,yi,W)+λ∇WR(W)
Adaptive Moment Estimation (Adam):
Adam 利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。公式如下:
m
t
=
μ
∗
m
t
−
1
+
(
1
−
μ
)
∗
g
t
m_t=\mu * m_{t-1}+(1-\mu)*g_t
mt=μ∗mt−1+(1−μ)∗gt
n
t
=
υ
∗
n
t
−
1
+
(
1
−
υ
)
∗
g
t
2
n_t=\upsilon* n_{t-1}+(1-\upsilon)*g_t^2
nt=υ∗nt−1+(1−υ)∗gt2
m
^
t
=
m
t
1
−
μ
t
\hat{m}_t=\frac{m_t}{1-\mu^t}
m^t=1−μtmt
n
^
t
=
n
t
1
−
υ
t
\hat{n}_t=\frac{n_t}{1-\upsilon^t}
n^t=1−υtnt
Δ
θ
t
=
−
m
^
t
n
^
t
+
ϵ
∗
η
\Delta \theta_t=-\frac{\hat{m}_t}{\sqrt{\hat{n}_t}+\epsilon}*\eta
Δθt=−n^t+ϵm^t∗η
2.图像识别两步走策略,输入图像特征的动机
图像识别两步走策略的步骤如下:
1)获取图像特征
2)用分类器将这些特征分类
输入图像特征的动机:可以将无法直接分类的图像转化成可以线性分类的问题
3. 常见的图像特征
1)color histogram:图像像素的直方图
2)HoG: 把图像分割成若干小块,根据边缘部分的像素直方图计算每个小块所显示的局部方向梯度
3)SIFT: 尺度不变特征变换
4)BoW: 将各种小块的图片编码,得到的特征作为字典检索到的值,把所有特征作为一个字典,然后将测试图片与这些特征比对匹配
4. 传统方式与神经网络处理图像问题的区别
传统方式处理图像是人工抓取图像特征然后用分类器进行分类,特征是不变的,只是更新分类器权重。
CNN处理图像问题会训练整个模型的所有层的权重,包括特征提取层。