【深度学习】— 多层感知机介绍、隐藏层、从线性到非线性、线性模型的局限性

最新推荐文章于 2025-01-05 17:24:00 发布

之墨_

最新推荐文章于 2025-01-05 17:24:00 发布

阅读量1.3k

点赞数 9

分类专栏：深度学习笔记文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_56462041/article/details/142717707

版权

【深度学习】— 多层感知机介绍

4.1 多层感知机
- 4.1.1 隐藏层
- - 线性模型的局限性
  - 引入隐藏层
4.2 从线性到非线性

4.1 多层感知机

在第 3 节中，我们介绍了 softmax 回归，并实现了其从零开始的实现和基于高级 API 的实现，训练了分类器来识别 10 类服装图像。在此过程中，我们学习了如何处理数据、将输出转换为概率分布、并应用适当的损失函数来最小化损失。现在，我们将深入探索深度神经网络，这是本书的核心模型之一。

4.1.1 隐藏层

在 3.1.1 节中，我们介绍了仿射变换，它是一种带有偏置项的线性变换。回想一下 softmax 回归的模型架构，它通过单个仿射变换将输入直接映射到输出，再进行 softmax 操作。如果标签确实与输入相关，这种方法是足够的。但仿射变换的线性假设过于强烈。

线性模型的局限性

线性模型假设输入特征与输出之间的关系是单调的，例如收入增加会增加偿还贷款的概率，但这种关系不是线性的。处理这个问题的一种方法是对数据进行预处理，比如使用收入的对数作为特征。

然而，对于某些问题，线性模型的假设会完全失败。例如，分类图像中的猫和狗时，某个像素的强度并不能单独决定类别。图像的像素需要依赖上下文，像素之间的复杂交互使得线性模型难以处理。

引入隐藏层

为了解决线性模型的局限性，我们可以在网络中加入隐藏层，使其能够处理更复杂的函数关系。最简单的方法是堆叠多个全连接层，每一层的输出作为下一层的输入，最终生成输出。这种架构称为多层感知机（multilayer perceptron，MLP）。

下图展示了一个单隐藏层的多层感知机：

图4.1.1: 一个单隐藏层的多层感知机，具有5个隐藏单元

这个 MLP 有 4 个输入，3 个输出，隐藏层有 5 个隐藏单元。输入层不涉及计算，网络的计算只发生在隐藏层和输出层。这种网络共有 2 层，每层都是全连接的，每个输入都会影响隐藏层中的每个神经元，而隐藏层中的每个神经元又会影响输出层中的每个神经元。

然而，如 3.4.3 节所述，具有全连接层的 MLP 可能有大量参数，这会带来高计算成本。即使不改变输入或输出的大小，也需要在参数节约和模型效果之间进行权衡。

4.2 从线性到非线性

与之前的章节类似，我们使用矩阵 $\mathbf{X} \in \mathbb{R}^{n \times d}$ 表示包含 $n$ 个样本的小批量数据，其中每个样本有 $d$ 个输入特征。对于具有 $h$ 个隐藏单元的单隐藏层多层感知机（MLP），隐藏层的输出可以用 $\mathbf{H} \in \mathbb{R}^{n \times h}$ 表示，称为隐藏表示（hidden representations）。隐藏层的权重和偏置分别为 $\mathbf{W}^{(1)} \in \mathbb{R}^{d \times h}$