吴恩达机器学习9-神经网络分析

最新推荐文章于 2024-03-09 10:41:52 发布

小y同学在学习

最新推荐文章于 2024-03-09 10:41:52 发布

阅读量379

点赞数

分类专栏：吴恩达机器学习系列笔记文章标签：机器学习神经网络 python

本文链接：https://blog.csdn.net/weixin_45092432/article/details/125626491

版权

吴恩达机器学习系列笔记专栏收录该内容

18 篇文章 2 订阅

订阅专栏

吴恩达机器学习9-神经网络分析

1.代价函数

在这里插入图片描述

首先回顾逻辑回归中的代价函数（相当于单个神经元）

$J(\theta)=-\frac{1}{m}\left[\sum_{j=1}^{n} y^{(i)} \log h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right]+\frac{\lambda}{2 m} \sum_{j=1}^{n} \theta_{j}^{2}$

再推广到神经网络中：
在这里插入图片描述

思想是一致的：通过代价函数来观察算法预测的结果与真实情况的误差有多大

公式解释：

对于每一行特征，我们都会给出𝐾个预测，基本上我们可以利用循环，对每一行特征都预测𝐾个不同结果，然后在利用循环在𝐾个预测中选择可能性最高的一个，将其与𝑦中的实际数据进行比较。

正则化的那一项只是排除了每一层𝜃₀后，每一层的𝜃 矩阵的和。最里层的循环𝑗循环所有的行（由下一层（𝑠_𝑙 +1）层的激活单元数决定），循环𝑖则循环所有的列，由该层（𝑠_𝑙层）的激活单元数所决定。即：ℎ_𝜃(𝑥)与真实值之间的距离为每个样本-每个类输出的加和，对参数进行正则化的偏置项处理所有参数的平方和。

2.反向传播

神经网络处理流程：
在这里插入图片描述

前向传播：

在这里插入图片描述

反向传播误差：

在这里插入图片描述

$g^{\prime}\left(z^{(3)}\right)=a^{(3)} *\left(1-a^{(3)}\right)$

有了所有的误差的表达式后，便可以计算代价函数的偏导数了，假设𝜆 = 0，即我们不做任何正则化处理时有：

$\frac{\partial}{\partial \theta_{i j}^{(l)}} J(\theta)=a_{j}^{(l)} \delta_{i}^{l+1}$

𝑙 代表目前所计算的是第几层。

𝑗 代表目前计算层中的激活单元的下标，也将是下一层的第𝑗个输入变量的下标。

𝑖 代表下一层中误差单元的下标，是受到权重矩阵中第𝑖行影响的下一层中的误差单元的下标

如果我们考虑正则化处理，并且我们的训练集是一个特征矩阵而非向量。在上面的特殊情况中，我们需要计算每一层的误差单元来计算代价函数的偏导数。在更为一般的情况中，我们同样需要计算每一层的误差单元，但是我们需要为整个训练集计算误差单元，此时的误差单元也是一个矩阵，我们用𝛥_𝑖𝑗^(𝑙)来表示这个误差矩阵。第 𝑙 层的第 𝑖个激活单元受到第 𝑗个参数影响而导致的误差。

算法流程：

在这里插入图片描述

先计算误差，再计算偏导数从而得到误差矩阵，进而求解代价函数的偏导数

3.编程注意

在 matlab中，如果我们要使用 fminuc 这样的优化算法来求解求出权重矩阵，需要将矩阵首先展开成为向量，在利用算法求出最优解后再重新转换回矩阵。

假设我们有三个权重矩阵，Theta1，Theta2 和 Theta3，尺寸分别为 10*11，10 *11 和1 *11，下面的代码可以实现这样的转换：

thetaVec = [Theta1(:) ; Theta2(:) ; Theta3(:)]
Theta1 = reshape(thetaVec(1:110, 10, 11);
Theta2 = reshape(thetaVec(111:220, 10, 11);
Theta1 = reshape(thetaVec(221:231, 1, 11);

4.梯度检验

思想：通过估计梯度值来检验我们计算的导数值是否是我们要求的。

对梯度的估计采用的方法是在代价函数上沿着切线的方向选择离两个非常近的点然后计算两个点的平均值用以估计梯度。即对于某个特定的 𝜃，我们计算出在 𝜃-𝜀 处和 𝜃+𝜀 的代价值（𝜀是一个非常小的值，通常选取 0.004），然后求两个代价的平均，用以估计在 𝜃处的代价值（求导）。

在这里插入图片描述

gradApprox = (J(theta + eps) – J(theta - eps)) / (2*eps)

整体逻辑：

在这里插入图片描述

tips:训练过程中不要使用梯度检验

除了梯度检验，还需通过反向传播对计算出的偏导数进行检验

根据上面的算法，计算出的偏导数存储在矩阵 𝐷_𝑖𝑗^(𝑙) 中。检验时，我们要将该矩阵展开成为向量，同时我们也将 𝜃 矩阵展开为向量，我们针对每一个 𝜃 都计算一个近似的梯度值，将这些值存储于一个近似梯度矩阵中，最终将得出的这个矩阵同 𝐷_𝑖𝑗^(𝑙) 进行比较。

5.参数随机初始化

任何优化算法都需要一些初始的参数。到目前为止我们都是初始所有参数为 0，这样的初始方法对于逻辑回归来说是可行的，但是对于神经网络来说是不可行的。如果我们令所有的初始参数都为 0，这将意味着我们第二层的所有激活单元都会有相同的值。同理，如果我们初始所有的参数都为一个非 0 的数，结果也是一样的。我们通常初始参数为正负𝜀之间的随机值，假设我们要随机初始一个尺寸为 10×11 的参数矩阵，代码如下：