B站:啥都会一点的研究生
公众号试读:啥都会一点的研究生
目录
- 说说什么是Transformer?
- 说说Transformer中的Encoder?
- 说说Transformer中的Decoder?
- 说说Transformer在训练与测试阶段Decoder的输入、输出是什么?
- 说说Transformer Encoder和Decoder有哪些不同?
- 说说什么是Transformer中的Embedding?
- 说说Positional Embedding?
- 说说什么是Transformer中的Attention?
- 说说Transformer Attention中的Q、K、V?
- 说说什么是Transformer中 Attention的实现步骤?
- 说说什么是Transformer中的Multi head attention?
- 说说什么是Transformer中的Mask Multi head attention?
- 说说什么是Transformer中的Feed Forward Networks?
说说什么是Transformer?
Transformer网络是一种用于自然语言处理和计算机视觉任务的深度学习模型。它在2017年由Google提出,并被广泛应用于各种自然语言处理任务,如机器翻译、文本摘要、文本分类等。
传统的序列模型如循环神经网络(RNN)在处理长文本时会遇到梯度消失或梯度爆炸的问题,而Transformer网络通过引入自注意力机制(self-attention mechanism)来解决这一问题。
自注意力机制是一种通过对输入序列的所有位置进行注意力计算,从而同时考虑输入序列中的所有位置信息的方法。在Transformer网络中,输入序列的每个位置都会通过与其他位置的关系进行联系,在编码器(Encoder)和解码器(Decode