卷积神经网络（CNN）、循环神经网络（RNN）和自注意力（self-attention）对比

最新推荐文章于 2025-02-21 11:38:44 发布

科学禅道

最新推荐文章于 2025-02-21 11:38:44 发布

阅读量2.5k

点赞数 12

分类专栏：深度学习模型专栏文章标签： cnn rnn 深度学习

本文链接：https://blog.csdn.net/xw555666/article/details/135382756

版权

深度学习模型专栏专栏收录该内容

69 篇文章

订阅专栏

考虑同一个的问题：将由 $n$ 个词元组成的序列映射到另一个长度相同的序列，其中的每个输入词元或输出词元由 $d$ 维向量表示。

我们将比较能够解决上述问题的三种常用方法：卷积神经网络（CNN）、循环神经网络（RNN）和自注意力（self-attention），从三个维度比较这三种架构：计算复杂度、顺序操作和最大路径长度。

其中，讨论顺序操作是因为顺序操作会妨碍并行计算。任意的序列位置组合之间的路径越短，越能更轻松地学习序列中的远距离依赖关系。

1、卷积神经网络（CNN）

考虑⼀个卷积核⼤⼩为 $k$ 的卷积层。（后续文章中将介绍关于使⽤卷积神经⽹络处理序列的详细信息）⽬前只需要知道的是，由于序列⻓度是 $n$ ，输⼊和输出的通道数量都是 $d$ ，所以卷积层的计算复杂度为 $O\left ( knd^{2} \right )$ 。如图所⽰，卷积神经⽹络是分层的，因此为有 $O\left ( 1 \right )$ 个顺序操作，最⼤路径⻓度为 $O\left ( n/k \right )$ 。例如， $\textup{\textbf{}x}_{1}$ 和 $\textup{\textbf{}x}_{5}$ 处于图中卷积核⼤⼩为3的双层卷积神经⽹络的感受野内。

2、循环神经网络（RNN）

当更新循环神经⽹络的隐状态时， $d\times d$ 权重矩阵和 $d$ 维隐状态的乘法计算复杂度为 $O\left (d ^{2} \right )$ 。由于序列⻓度为 $n$ ，因此循环神经⽹络层的计算复杂度为 $O\left (nd ^{2} \right )$ 。根据图，有 $O\left (n \right )$ 个顺序操作⽆法并⾏化，最⼤路径⻓度也是 $O\left (n \right )$ 。

3、自注意力（self-attention）

在⾃注意⼒中，查询、键和值都是 $n\times d$ 矩阵。考虑缩放的”点－积“注意⼒，其中 $n\times d$ 矩阵乘以 $d\times n$ 矩阵。之后输出的 $n\times n$ 矩阵乘以 $n\times d$ 矩阵。因此，⾃注意⼒具有 $O\left (n ^{2} d\right )$ 计算复杂性。正如在图中所讲，每个词元都通过⾃注意⼒直接连接到任何其他词元。因此，有 $O\left ( 1 \right )$ 个顺序操作可以并⾏计算，最⼤路径⻓度也是 $O\left ( 1 \right )$ 。