深入理解 Bert核心:Self-Attention与transformer

本文深入解析Transformer模型,探讨其核心self-Attention机制,以及多头机制如何增强模型表达能力。文章阐述了Transformer如何克服传统RNN的局限,实现高效并行计算,特别强调了位置编码的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


本文主要讲解Bert模型的核心:transformer。transformer利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。通过先讲解Attention机制,再讲解Transformer模型,理解它的工作原理。

Attention机制基本思想

Attention机制源自于人类视觉注意力机制:将有限的注意力集中在重点信息上,「从关注全部到关注重点」,从而节省资源,快速获得最有效的信息Attention就是一种权重参数的分配机制,目标是帮助模型捕捉重要信息,本质是一种带权求和。

下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示。

在这里插入图片描述

Encoder是对输入句子Source x 1 , x 2 , x 3 , x 4 x_1,x_2,x_3,x_4 x1,x2,x3,x4进行编码,将输入句子通过非线性变换转化为中间语义表示C:
C = F ( x 1 , x 2 , x 3 , … x n ) C = \mathcal F(x_1,x_2,x_3,\ldots x_n) C=F(x1,x2,x3,xn)
对于解码器Decoder来说,其任务是根据句子Source的中间语义表示C和之前已经生成的历史信息来生成i时刻要生成的单词,即:
y i = G ( C , y 1 , 2 , … y i − 1 ) y_i = \mathcal G(C,y_1,_2,\ldots y_{i-1}) yi=G(C,y1,2,yi1)
注: G 、 F \mathcal G、\mathcal F GF均是非线性变换函数

如果Source是中文句子,Target是英文句子,那么这就是解决机器翻译问题的Encoder-Decoder框架,在这个翻译的过程中,每个target的生成过程如下:
y 1 = G ( C ) y 2 = G ( C , y 1 ) y 3 = G ( C , y 1 , y 2 ) y_1 = \mathcal G(C) \\ y_2 = \mathcal G(C,y_1) \\ y_3 = \mathcal G(C,y_1,y_2) y1=G(C)y

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值