没有激活函数，存在某个单层神经网络等价于多层神经网络的证明

最新推荐文章于 2024-03-05 12:17:05 发布

leo_fighting

最新推荐文章于 2024-03-05 12:17:05 发布

阅读量1.3k

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/zhangliaobet/article/details/100177908

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

给定一个小批量样本 $\mathbf{X}\in \mathbb{R}^{n\times d }$ ，其批量大小为n，输入个数为d。假设多层感知机只有一个隐藏层，其中隐藏单元个数为h。记隐藏层的输出（也称为隐藏层变量或隐藏变量）为 $\boldsymbol{H}$ ，有 $\mathbf{H}\in \mathbb{R}^{n\times h }$ 。因为隐藏层和输出层均是全连接层，可以设隐藏层的权重参数和偏差参数分别为 $\mathbf{W}_h\in \mathbb{R}^{d\times h }$ 和 $\mathbf{b}_h\in \mathbb{R}^{1\times h }$ ，输出层的权重和偏差参数分别为 $\mathbf{W}_o\in \mathbb{R}^{h\times q }$ 和 $\mathbf{b}_o\in \mathbb{R}^{1\times q }$ 。

我们先来看一种含单隐藏层的多层感知机的设计。其输出 $\mathbf{O}\in \mathbb{R}^{n\times q }$ 的计算为

$\mathbf{H} =\mathbf{XW}_h +\mathbf{b}_h$ ,

$\mathbf{O} =\mathbf{HW}_o +\mathbf{b}_o$

也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联立起来，可以得到

$\mathbf{O} =\mathbf{HW}_o +\mathbf{b}_o = \mathbf{\left ( \mathbf{XW}_h +\mathbf{b}_h \right )W}_o +\mathbf{b}_o = \mathbf{XW}_h \mathbf{W}_o+\mathbf{b}_h\mathbf{W}_o +\mathbf{b}_o$

从联立后的式子可以看出，虽然神经网络引入了隐藏层，却依然等价于一个单层神经网络：其中输出层权重参数为 $\mathbf{W}_h \mathbf{W}_o$ ，偏差参数为 $\mathbf{b}_h\mathbf{W}_o +\mathbf{b}_o$ 。不难发现，即便再添加更多的隐藏层，以上设计依然只能与仅含输出层的单层神经网络等价。

reference

1.https://zh.d2l.ai/chapter_deep-learning-basics/mlp.html#

leo_fighting

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
没有激活函数，存在某个单层神经网络等价于多层神经网络的证明

给定一个小批量样本，其批量大小为n，输入个数为d。假设多层感知机只有一个隐藏层，其中隐藏单元个数为h。记隐藏层的输出（也称为隐藏层变量或隐藏变量）为，有。因为隐藏层和输出层均是全连接层，可以设隐藏层的权重参数和偏差参数分别为和，输出层的权重和偏差参数分别为和。我们先来看一种含单隐藏层的多层感知机的设计。其输出的计算为,也就是将隐藏层的输出直接作为输出层的输入。如果将以上两个式子联...
复制链接

扫一扫