学习心得

最新推荐文章于 2020-08-16 00:51:01 发布

浮生hjz

最新推荐文章于 2020-08-16 00:51:01 发布

阅读量108

点赞数

原文链接：https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/jupyter/U-WdzWhU6C29MaLj0udI5

版权

本人小白一枚，之前未接触过python，写出来的东西也比较简单，不是很深入，如有错误，希望大家指正；

1，首先损失函数其实是有多种类型的，比如平方函数，交叉熵损失函数
常见的平方函数

2.当模型和损失函数形式较为简单时，上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解（analytical solution）。本节使用的线性回归和平方误差刚好属于这个范畴。然而，大多数深度学习模型并没有解析解，只能通过优化算法有限次迭代模型参数来尽可能降低损失函数的值。这类解叫作数值解（numerical solution）。

在求数值解的优化算法中，小批量随机梯度下降（mini-batch stochastic gradient descent）在深度学习中被广泛使用。它的算法很简单：先选取一组模型参数的初始值，如随机选取；接下来对参数进行多次迭代，使每次迭代都可能降低损失函数的值。在每次迭代中，先随机均匀采样一个由固定数目训练数据样本所组成的小批量（mini-batch） B ，然后求小批量中数据样本的平均损失有关模型参数的导数（梯度），最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。

3.softmax和分类模型
softmax解决多分类的问题中的到最后输出的问题，将输出取exp后相加后作为分母，分子则是exp（O（i））；得到概率最高的为输出；
在这里插入图片描述
4.多层感知机

在这里插入图片描述
具体来说，给定一个小批量样本 X∈Rn×d ，其批量大小为 n ，输入个数为 d 。假设多层感知机只有一个隐藏层，其中隐藏单元个数为 h 。记隐藏层的输出（也称为隐藏层变量或隐藏变量）为 H ，有 H∈Rn×h 。因为隐藏层和输出层均是全连接层，可以设隐藏层的权重参数和偏差参数分别为 Wh∈Rd×h 和 bh∈R1×h ，输出层的权重和偏差参数分别为 Wo∈Rh×q 和 bo∈R1×q 。

我们先来看一种含单隐藏层的多层感知机的设计。其输出 O∈Rn×q 的计算为

HO=XWh+bh,=HWo+bo,

也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来，可以得到

O=(XWh+bh)Wo+bo=XWhWo+bhWo+bo.

从联立后的式子可以看出，虽然神经网络引入了隐藏层，却依然等价于一个单层神经网络：其中输出层权重参数为 WhWo ，偏差参数为 bhWo+bo 。不难发现，即便再添加更多的隐藏层，以上设计依然只能与仅含输出层的单层神经网络等价。

激活函数
上述问题的根源在于全连接层只是对数据做仿射变换（affine transformation），而多个仿射变换的叠加仍然是一个仿射变换。解决问题的一个方法是引入非线性变换，例如对隐藏变量使用按元素运算的非线性函数进行变换，然后再作为下一个全连接层的输入。这个非线性函数被称为激活函数（activation function）。
西瓜书中介绍的Sigmoid函数，ReLU（rectified linear unit）函数等都属于激活函数。

浮生hjz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习心得

本人小白一枚，之前未接触过python，写出来的东西也比较简单，不是很深入，如有错误，希望大家指正；1，首先损失函数其实是有多种类型的，比如平方函数，交叉熵损失函数2.当模型和损失函数形式较为简单时，上面的误差最小化问题的解可以直接用公式表达出来。这类解叫作解析解（analytical solution）。本节使用的线性回归和平方误差刚好属于这个范畴。然而，大多数深度学习模型并没有解析解，...
复制链接

扫一扫