week4 神经网络

最新推荐文章于 2022-05-02 19:36:59 发布

zy199336

最新推荐文章于 2022-05-02 19:36:59 发布

阅读量257

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/zy199336/article/details/74951753

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

7 神经网络：表达

7.1 非线性假设

之前我们已经看过，非线性多项式能够更好的处理问题，但它也同样带来了不少问题，比如说，当特征量比较多的时候，我们将这些特征量结合起来，将会是数量非常大的特征组合。
e.g.
假设我们希望通过学习使计算机能够识别一张图片是否是汽车，即使图片大小事50*50像素的灰度图片，就有2500个基本特征，如果我们想要进一步两两组合这些特征，将会有 $\frac{2500^2}{2}$ 个特征，普通的逻辑回归模型，不能有效的处理这么多的特征，这时候我们需要神经网络来解决这个问题。

7.2 神经网络介绍

神经网络算法源于对大脑的模仿，再八十年代到九十年代被广为使用过，之后逐渐减少使用，现在又流行起来主要的原因是因为神经网络非常依赖计算能力，计算机性能的提高才使这种算法成为一个行之有效的技术。

7.3 模型表达

为了构建神经网络，我们首先需要了解大脑中的神经网络是如何工作的
大脑中每一个神经元被认为是一个神经元，它含有树突和轴突，神经网络是大量神经元相互连接并通过电脉冲交流的一个网络。
神经网络模型建立再很多神经元之上，每一个神经元又是一个个学习模型，这些神经元采纳一些特征作为输入，并且根据自身的模型为下一个模型提供输出，下图是一个以逻辑回归模型作为自身学习模型的神经元示例，再神经元网络中，参数又被称之为权重。

7.4 神经网络模型表达

神经网络模型是许多逻辑单元按照不同的层级组织起来，每一层的输出都是下一层的输入，下图为一个3层神经网络，第一层为输入层，中间层为隐藏层，最后一层为输出层。
$a_i^j$ 代表第j层第i个神经元
$\Theta^j$ 代表从第j层到j+1层的权重矩阵，尺寸为(j层神经元个数)*(j+1层神经元个数)
对于上图，神经元和输出的表达式为：
$a 21 = g (Θ 110 x 0 + Θ 111 x 1 Θ 112 x 2 Θ 113 x 3)$ $a_1^2=g(\Theta_{10}^1x_0+\Theta_{11}^1x_1\Theta_{12}^1x_2\Theta_{13}^1x_3)$
$a 22 = g (Θ 120 x 0 + Θ 121 x 1 Θ 122 x 2 Θ 123 x 3)$ $a_2^2=g(\Theta_{20}^1x_0+\Theta_{21}^1x_1\Theta_{22}^1x_2\Theta_{23}^1x_3)$
$a 23 = g (Θ 130 x 0 + Θ 131 x 1 Θ 132 x 2 Θ 133 x 3)$ $a_3^2=g(\Theta_{30}^1x_0+\Theta_{31}^1x_1\Theta_{32}^1x_2\Theta_{33}^1x_3)$
$h Θ (x) = g (Θ 210 a 20 + Θ 211 a 21 Θ 212 a 22 Θ 213 a 23)$ $h_\Theta(x)=g(\Theta_{10}^2a_0^2+\Theta_{11}^2a_1^2\Theta_{12}^2a_2^2\Theta_{13}^2a_3^2)$
$\Theta_{ab}^c$ 代表的是第c层第b个神经元到c+1层第a个神经元的配权重
上述讨论的只是将特征矩阵中的一行(一个训练实例)给了神经网络，我们要将所有的训练集都给神经网络

7.5 正向传播 forward propagation

我们可以用矩阵的形式，将上一节的两层方程写出：

第一层到第二层：

g ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎡ ⎣ ⎢ ⎢ ⎢ Θ 110 Θ 120 Θ 130 Θ 111 Θ 121 Θ 131 Θ 112 Θ 122 Θ 132 Θ 113 Θ 123 Θ 133 ⎤ ⎦ ⎥ ⎥ ⎥ \times ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 0 x 1 x 2 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ = ⎡ ⎣ ⎢ ⎢ ⎢ a 21 a 22 a 23 ⎤ ⎦ ⎥ ⎥ ⎥

$g\left(\left[\begin{array}{cccc}\Theta_{10}^1&\Theta_{11}^1&\Theta_{12}^1&\Theta_{13}^1\\\Theta_{20}^1&\Theta_{21}^1&\Theta_{22}^1&\Theta_{23}^1\\\Theta_{30}^1&\Theta_{31}^1&\Theta_{32}^1&\Theta_{33}^1\\\end{array}\right]\times\left[\begin{array}{c}x_0\\x_1\\x_2\\x_3\end{array}\right]\right)=\left[\begin{array}{c}a_1^2\\a_2^2\\a_3^2\end{array}\right]$

g (Θ 1 \times X T) = a (2)

$g(\Theta^1\times X^T)=a^{(2)}$
第二层到第三层：

g ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ [Θ 210 Θ 211 Θ 212 Θ 213] \times ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ a (2) 0 a (2) 1 a (2) 2 a (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ = h Θ (x)

$g\left(\left[\begin{array}{cccc}\Theta_{10}^2&\Theta_{11}^2&\Theta_{12}^2&\Theta_{13}^2\end{array}\right]\times\left[\begin{array}{c}a_0^{(2)}\\a_1^{(2)}\\a_2^{(2)}\\a_3^{(2)}\\\end{array}\right]\right)=h_\Theta(x)$