深入理解 Bert核心：Self-Attention与transformer

最新推荐文章于 2024-06-03 17:28:04 发布

zhong_ddbb

最新推荐文章于 2024-06-03 17:28:04 发布

阅读量3.3k

点赞数 6

分类专栏：深度学习自然语言处理文章标签： Bert transformer 深度学习 nlp Attention

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/107564421

版权

本文深入解析Transformer模型，探讨其核心self-Attention机制，以及多头机制如何增强模型表达能力。文章阐述了Transformer如何克服传统RNN的局限，实现高效并行计算，特别强调了位置编码的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要讲解Bert模型的核心：transformer。transformer利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分发掘DNN模型的特性，提升模型准确率。通过先讲解Attention机制，再讲解Transformer模型，理解它的工作原理。

Attention机制基本思想

Attention机制源自于人类视觉注意力机制：将有限的注意力集中在重点信息上，「从关注全部到关注重点」，从而节省资源，快速获得最有效的信息。Attention就是一种权重参数的分配机制，目标是帮助模型捕捉重要信息，本质是一种带权求和。

下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示。

在这里插入图片描述

Encoder是对输入句子Source $x_1,x_2,x_3,x_4$ 进行编码，将输入句子通过非线性变换转化为中间语义表示C：
$\mathcal F(x_1,x_2,x_3,\ldots x_n)$
对于解码器Decoder来说，其任务是根据句子Source的中间语义表示C和之前已经生成的历史信息来生成i时刻要生成的单词，即：
$y_i = \mathcal G(C,y_1,_2,\ldots y_{i-1})$
注： $\mathcal G、\mathcal F$ 均是非线性变换函数

如果Source是中文句子，Target是英文句子，那么这就是解决机器翻译问题的Encoder-Decoder框架，在这个翻译的过程中，每个target的生成过程如下：
$y_1 = \mathcal G(C) \\ y_2 = \mathcal G(C,y_1) \\ y_3 = \mathcal G(C,y_1,y_2)$

最低0.47元/天解锁文章