Deep Learning Yoshua Bengio

最新推荐文章于 2024-04-22 15:46:39 发布

wendox

最新推荐文章于 2024-04-22 15:46:39 发布

阅读量782

点赞数

分类专栏： DNN 文章标签：深度学习阅读笔记1

本文链接：https://blog.csdn.net/wendox/article/details/50275989

版权

DNN 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

深度学习阅读笔记(1) chapter 6

Learning a Conditional Probability Model

我们可以定义一个损失函数对应一个条件log似然函数，也就是负log似然函数损失函数为：
$\boldsymbol{L}_{NLL}(f_\theta(\boldsymbol{x}),\boldsymbol{y})=-\log P(\mathbf{y}=\boldsymbol{y}|\mathbf{x}=\boldsymbol{x};\boldsymbol{\theta})$

该条件对应于最小化KL离散变换，在模型 $P(\mathbf{y}|\mathbf{x})$ 和数据产生分布Q。
minimizing this negative log-likelihood is therefore equivalent to minimizing the squared error loss. Once we understand this principle, we can readily generalize it to other distributions, as appropriate.

Softmax

当 $\boldsymbol{y}$ 为离散且为有限整数值域时，伯努利分布拓展为multinoulli分布，softmax 函数

p = s o f t m a x (a) ⟺ p i = e a i \sum j e a j

$\boldsymbol{p}=softmax(\boldsymbol{a}) \Longleftrightarrow p_i=\frac{e^{a_i}}{\sum_je^{a_j}}$
另外可以得到

\partial \partial a L N L L (p, y) = (p - e y)

$\frac{\partial}{\partial a}\boldsymbol{L}_{NLL}(\boldsymbol{p},y)=(\boldsymbol{p-e}_y)$
如果预测正确，这是梯度接近0。
如果预测失败，

pj≈1 $p_j\thickapprox 1$ ，这是会有较强的push降低

aj $a_j$ 。
如此以此类推。
对于平方误差损失

L 2 (p (a) = ∥ p (a) - y ∥)

$L_2(\boldsymbol{p(a)}=\|\boldsymbol{p(a)-y}\|)$
损失的梯度相对于输入向量为

\partial \partial a j L 2 (p (a), y) = \partial L 2 ( p ( a ) , y ) \partial ( p ( a ) \partial ( p ( a ) \partial a j = \sum j 2 (p j (a - y i))

$\frac{\partial}{\partial a_j} L_2(\boldsymbol{p(a),y)} =\frac{\partial L_2(\boldsymbol{p(a),y)}}{\partial \boldsymbol{(p(a)}} \frac{\partial \boldsymbol{(p(a)}}{\partial a_j}\\ =\sum_j2(p_j(\boldsymbol{a-y}_i))$
所以如果模型对正确的类别给出很低的概率预测，i.e.

py=pj≈1 $p_y=p_j\thickapprox 1$ ，这时给正确类别的分没有被优化器拉高。所以使用者正喜欢使用负log似然函数with softmax非线性，而不是应用平方损失。

softmax的另一个有用的性质为他的输出对加一个常量具有不变形。

s o f t m a x (a) = s o f t m a x (a + b)

$softmax(a)=softmax(a+b)$
这个性质可以用来实现数值稳定不变性。这使得我们计算softmax的时候只存在于很小的数值误差。
softmax输出的和总为1。
当一个战胜其他时，winner-take-all.

N e u r a l N e t O u t p u t s a s P a r a m e t e r s o f a C o n d i t i o n a l D i s t r i b u t i o n

$Neural Net Outputs as Parameters of a Conditional Distribution$
对于任意的参数概率分布

p(y|ω) $p(\mathbf{y|\omega})$ ，可以构造一个条件分布

p(y|x) $p(\mathbf{y|x})$ 通过构造

ω $\omega$ 为一个参数函数of

x $\mathbf{x}$ ，并学习函数：

p(y|ω=fθ(x)) $p(\mathbf{y|\omega}=f_\boldsymbol{\theta}(\mathbf{x}))$
另一个神经网络的输出分布为混合模型

p (y | x) = p (c = i | x) N (y | μ i (x), Σ i (x))

$p(\mathbf{y|x})=p(c=i|\mathbf{x})\mathbf{N}(\mathbf{y|\mu_i(x),\Sigma_i(x)})$
网络包含三个输出

p(c=i|x) $p(c=i|\mathbf{x})$ ,

μi(x) $\mu_i(\mathbf{x})$ 以及

Σi(x) $\mathbf{\Sigma_i(x)}$
Multiple Output Variables
最简单的办法是假设

yi $\mathbf{y}_i$ 之间是相互独立的。i.e.

p (y 1, y 2, . . ., y k | x) = \prod i = 1 k p (y i | x)

$p(\mathbf{y_1,y_2,...,y_k|x})=\prod_{i=1}^kp(\mathbf{y}_i|\mathbf{x})$ , 一个更常用的方法是假设给定

x $\mathbf{x}$ ，不同的

yi $\mathbf{y}_i$ 之间存在共同的影响因素，这些可以网络的隐含层表示。

(yi,x) $(\mathbf{y_i,x})$ 可以联系不同的学习任务。另外可以使用概率图模型对联合分布建模。

Cost Functions for Neural Networks

除了负log似然函数可以增加一些正则项。

Optimization step

NN的优化很困难以至于优化过程和建模过程交织在一起。也就是说我们经常设计优化过程比较简单的模型。

BP算法

The basic idea of the back-propagation algorithm is that the partial derivative of the cost $J$ with respect to parameters $\theta$ can be decomposed recursively by taking into consideration the composition of functions that relate $\theta$ to $J$ , via intermediate quantities that mediate that influence, e.g., the activations of hidden units in a deep neural network.

缺点

反向传播算法很难调试得到正确结果，尤其是当实现程序存在很多难于发现的bug时。举例来说，索引的缺位错误（off-by-one error）会导致只有部分层的权重得到训练，再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果。

L_BFGS

L-BFGS算法我们以后会有论述（另一个例子是共轭梯度算法）。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时，你需要提供关键的函数：即对于任一个 $\theta$ ，需要你计算出 $J(\theta)$ 和 $\nabla_\theta J(\theta)$ 。之后，这些优化算法会自动调整学习速率/步长值 $\alpha$ 的大小（并计算Hessian近似矩阵等等）来自动寻找 $J(\theta)$ 最小化时 $\theta$ 的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。
Newton算法在计算时需要用到Hessian矩阵 $\boldsymbol{H}$ , 计算Hessian矩阵非常费时, 所以研究者提出了很多使用方法来近似Hessian矩阵, 这些方法都称作准牛顿算法, BFGS就是其中的一种, 以其发明者Broyden, Fletcher, Goldfarb和Shanno命名.