【机器学习】神经网络 I

最新推荐文章于 2022-11-19 13:24:21 发布

Louis1874

最新推荐文章于 2022-11-19 13:24:21 发布

阅读量219

点赞数 2

分类专栏： # 机器学习文章标签：神经网络人工智能机器学习深度学习算法

本文链接：https://blog.csdn.net/weixin_44413191/article/details/107825890

版权

机器学习专栏收录该内容

13 篇文章 2 订阅

订阅专栏

本文为机器学习的学习总结，讲解神经网络。欢迎交流

非线性假设

如果我们有一个分类问题，其训练集如下：

在这里插入图片描述

如果我们使用逻辑回归模型进行拟合，这样复杂的图形需要高阶多项式，而当特征变量数量增加时，其二次项会呈 $O(n^2)$ 的速度增长，即解空间会随着特征变量的增加而急剧膨胀。这样的模型很容易出现过拟合的问题，并且计算量极大。但如果选取的特征变量较少时，很难拟合出上图中复杂的决策边界。

例如下面的例子，我们构造一个识别汽车的分类器。为画图方便，取车上的 2 个像素点，画出训练集如下：

在这里插入图片描述

此时汽车与非汽车被分为两类：

在这里插入图片描述

假设图像是 50×50 像素，则特征空间的维数为 2500。如果要包含所有的二次项特征来学习得到的非线性假设，大约需要 300 万个特征。

因此，在 $n$ 很大时，简单的逻辑回归模型不是学习复杂的非线性假设的好方法，因为特征过多。而神经网络被证明是学习复杂非线性假设的很好的算法，即使输入特征空间很大也能轻松解决。

神经元与大脑

神经网络算法是一种很古老的算法，但因为计算量过大，后来人们很少使用。随着计算机计算能力的突飞猛进，神经网络算法由出现在人们的视野中。

神经网络起源于人类用计算机对大脑的模拟。神经网络中神经元的连接方式称为神经网络的架构。

模型表示 I

我们使用一个很简单的模型来模拟神经元的工作，将神经元模拟成一个逻辑单元。

在这里插入图片描述

神经元的左边的输入通道传递一些信息，由神经元进行计算，并通过右边的输出通道输出计算到的结果。这里 $h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}}$ ，其中 $x,\theta$ 分别为特征和参数的列向量。有时我们还会在输入层添加一个额外结点 $x_0$ ，被称为偏置神经元。在神经网络中，激活函数代指非线性函数 $g(z)=\frac{1}{1+e^{-z}}$ ，参数 $\theta$ 被称为权重。

神经网络的计算步骤如下：
$a_1^{(2)}=g(\Theta_{10}^{(1)}x_0+\Theta_{11}^{(1)}x_1+\Theta_{12}^{(1)}x_2+\Theta_{13}^{(1)}x_3)$

$a_2^{(2)}=g(\Theta_{20}^{(1)}x_0+\Theta_{21}^{(1)}x_1+\Theta_{22}^{(1)}x_2+\Theta_{23}^{(1)}x_3)$

$a_3^{(2)}=g(\Theta_{30}^{(1)}x_0+\Theta_{31}^{(1)}x_1+\Theta_{32}^{(1)}x_2+\Theta_{33}^{(1)}x_3)$

$h_\Theta(x)=a_1^{(3)}=g(\Theta_{10}^{(2)}a_0^{(2)}+\Theta_{11}^{(2)}a_1^{(2)}+\Theta_{12}^{(2)}a_2^{(2)}+\Theta_{13}^{(2)}a_3^{(2)})$

我们用 $a_i^{(j)}$ 表示第 $j$ 层中第 $i$ 个神经元的激活项，即输出值。 $\Theta^{(j)}$ 为控制从第 $j$ 层到第 $j + 1$ 层映射的参数矩阵，维度为 $s_{j+1}×s_j$ ，其中 $s_j$ 表示第 $j$ 层的神经元个数。通过改变 $\Theta$ ，我们得到不同的假设（函数）。

模型表示 II

我们需要高效计算，并展示一个向量化的实现方法，可以帮助我们学习复杂的非线性假设函数。

在神经网络的计算步骤中，我们将 $g$ 函数括号内的部分定义为 $z^{(2)}_1$ ，有 $a_1^{(2)}=g(z^{(2)}_1)$ 。激活项的计算中，可以将其对应到矩阵乘法。设 $x=\left[ \begin{matrix} x_0\\ x_1\\x_2\\x_3 \end{matrix} \right],x_0=1$ ， $z^{(2)}=\left[ \begin{matrix} z_1^{(2)}\\ z_2^{(2)}\\z_3^{(2)} \end{matrix} \right]$ 。激活项的计算可以参数化为：
$z^{(2)}=\Theta^{(1)}x$

$a^{(2)}=g(z^{(2)})$

$g$ 作用于 $z^{(2)}$ 中的每个元素。因为 $x$ 为第一层的激活项，为符号统一，定义 $x=a^{(1)}$ ，则此时 $z^{(2)}=\Theta^{(1)}a^{(1)}$ 。再加上偏置神经元 $a^{(2)}_0=1$ ，则：
$z^{(3)}=\Theta^{(2)}a^{(2)}$