人工智能面试总结-Transformer专题

最新推荐文章于 2024-09-24 09:40:31 发布

啥都生

最新推荐文章于 2024-09-24 09:40:31 发布

阅读量1.9k

点赞数 2

分类专栏：深度学习|机器学习面试总结文章标签：人工智能 transformer 深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzh516451964zzh/article/details/131620255

版权

深度学习|机器学习面试总结专栏收录该内容

27 篇文章 997 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

Transformer网络是一种深度学习模型，由Google在2017年提出，广泛应用于自然语言处理任务。它通过自注意力机制解决了传统序列模型如RNN的梯度消失问题。Transformer包含Encoder和Decoder，Encoder通过自注意力机制捕获输入序列的全局信息，Decoder结合编码信息和已生成序列预测输出。训练时，Decoder输入包括目标序列和Encoder输出；测试时，从特殊起始符号开始生成输出序列。Transformer的Embedding包括位置编码和词嵌入，用于将输入序列转化为向量表示。

摘要由CSDN通过智能技术生成

在这里插入图片描述
B站：啥都会一点的研究生

公众号试读：啥都会一点的研究生

目录

说说什么是Transformer？
说说Transformer中的Encoder？
说说Transformer中的Decoder？
说说Transformer在训练与测试阶段Decoder的输入、输出是什么？
说说Transformer Encoder和Decoder有哪些不同？
说说什么是Transformer中的Embedding?
说说Positional Embedding？
说说什么是Transformer中的Attention?
说说Transformer Attention中的Q、K、V？
说说什么是Transformer中 Attention的实现步骤?
说说什么是Transformer中的Multi head attention？
说说什么是Transformer中的Mask Multi head attention？
说说什么是Transformer中的Feed Forward Networks？

说说什么是Transformer？

Transformer网络是一种用于自然语言处理和计算机视觉任务的深度学习模型。它在2017年由Google提出，并被广泛应用于各种自然语言处理任务，如机器翻译、文本摘要、文本分类等。

传统的序列模型如循环神经网络（RNN）在处理长文本时会遇到梯度消失或梯度爆炸的问题，而Transformer网络通过引入自注意力机制（self-attention mechanism）来解决这一问题。
自注意力机制是一种通过对输入序列的所有位置进行注意力计算，从而同时考虑输入序列中的所有位置信息的方法。在Transformer网络中，输入序列的每个位置都会通过与其他位置的关系进行联系，在编码器（Encoder）和解码器（Decode

了解本专栏

超级会员免费看

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

啥都生 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。