BERT基础（一）：self_attention自注意力详解

最新推荐文章于 2024-08-15 20:42:08 发布

杨丹的博客

最新推荐文章于 2024-08-15 20:42:08 发布

阅读量1.2w

点赞数 16

分类专栏：深度学习语言模型文章标签： BERT self-attention

本文链接：https://blog.csdn.net/yangdan1025/article/details/102912124

版权

本文深入探讨了BERT中的Transformer模型，重点解析了self-attention机制，包括其优势、计算过程和多头注意力的概念，揭示了如何解决RNN和CNN的局限性，为机器翻译等任务提供更高效的信息处理方式。

摘要由CSDN通过智能技术生成

BERT中的主要模型为Transformer，而Transformer的主要模块就是self-attention。为了更好理解bert，就从最基本的self-attention 开始。之后的博文则一步一步推进到bert。

参考：李宏毅2019年新增课程 week 15 transformer 课程笔记

视频及课件地址：https://www.bilibili.com/video/av65521101/?p=97

一、RNN和CNN的局限

RNN的输入是一串vector sequence，输出是另外一串vector sequence。如果是单向的RNN，输出是 $b^4$ 的时候，会把 $a^1$ 到 $a^4$ 通通都看过，输出 $b^3$ 的时候，会把 $a^1$ 到 $a^3$ 都看过。如果是双向RNN，输出每一个 $b^1$ 到 $b^4$ 的时候，已经把整个input sequence通通都看过。

RNN存在的问题是不容易被平行化，即假设单向的情况下要算出 $b^4$ ，需要先看 $a^1$ 再看 $a^2、a^3、a^4$ 才能算出。

解决方法：用CNN代替RNN。如图，input一个sequence $a^1$ 到 $a^4$ ，每一个三角形代表一个filter（滤波器），输入是sequence 中的一小段，输出一个数值。若有一堆filter，输入是一个sequence，输出是另外的sequence。

CNN也有办法考虑更长的资讯，只要叠加很多层，上层的filter就可以考虑比较多的资讯。举例来说，叠了第一层CNN再叠第二层的CNN，第二层CNN的filter 会把第一层的output当作input。如图，蓝色的filter由 $b^1,b^2,b^3$ 决定输出，而 $b^1,b^2,b^3$ 是由来 $a^1$ 到 $a^4$ 决定他们的输出，所以等同于蓝色的filter 已经看到了 $a^1$ 到 $a^4$ 的内容。CNN的好处是可以平行化，每一个同颜色的filter可以同时计算。