多层感知机（Multilayer Perceptron, MLP）

幼儿园大哥~

于 2024-07-02 16:18:39 发布

阅读量315

点赞数 5

分类专栏：扩展知识文章标签：多层感知机深度学习

本文链接：https://blog.csdn.net/weixin_45633221/article/details/140129960

版权

28 篇文章 0 订阅

订阅专栏

多层感知机（Multilayer Perceptron, MLP）是深度学习中的一种基本神经网络结构。它由多个全连接层（也称为密集层）组成，每一层的神经元与前一层的所有神经元相连，并通过激活函数引入非线性。MLP主要用于处理结构化数据，并在许多领域中广泛应用。以下是对MLP工作原理的详细解释：

输入层（Input Layer）：
输入层接收原始数据，每个输入特征对应一个神经元。例如，对于一个有 $n$ 个特征的数据集，输入层有 $n$ 个神经元。
隐藏层（Hidden Layers）：
隐藏层由一个或多个全连接层组成，每个层中的神经元与前一层的所有神经元相连。隐藏层的数量和每层的神经元数量是网络的超参数，需要通过实验调优。
输出层（Output Layer）：
输出层生成最终的预测结果。对于分类任务，输出层的神经元数量通常与类别数量相同；对于回归任务，输出层通常只有一个神经元。

在前向传播过程中，输入数据依次通过每一层，生成输出：

线性变换：
每个神经元接收前一层的输出，进行加权求和并加上偏置项：
$z_j = \sum_{i=1}^{n} w_{ij} x_i + b_j$
其中， $w_{ij}$ 是权重， $x_i$ 是输入， $b_j$ 是偏置， $z_j$ 是线性变换结果。
激活函数：
线性变换结果通过激活函数引入非线性，得到神经元的输出：
$a_j = \sigma(z_j)$
常用的激活函数包括 ReLU、Sigmoid 和 Tanh。
层间传播：
每一层的输出作为下一层的输入，依次类推，直到输出层生成最终结果。

损失函数衡量模型预测值与真实值之间的差异。常用的损失函数包括：

损失函数的计算公式根据任务类型的不同而不同。

反向传播通过计算损失函数对每个参数的梯度，指导参数的更新：

梯度计算：
使用链式法则计算每个参数对损失函数的偏导数。
参数更新：
使用梯度下降法更新参数，典型的更新公式为：
$w_{ij} \leftarrow w_{ij} - \eta \frac{\partial L}{\partial w_{ij}}$
其中， $\eta$ 是学习率， $\frac{\partial L}{\partial w_{ij}}$ 是损失函数对权重 $w_{ij}$ 的梯度。

通过多次迭代训练（即多个epoch），模型的参数逐步优化，使损失函数逐渐减少。每次迭代包括一个前向传播和一个反向传播过程。

多层感知机通过多层全连接网络和非线性激活函数实现对复杂数据模式的学习和建模。其工作原理包括前向传播、损失函数计算、反向传播和参数更新。MLP在许多应用中表现出色，是深度学习的基础模型之一。

关注

专栏目录