昇思MindSpore技术公开课-transformer学习概览

玄宁

已于 2024-01-17 17:25:24 修改

阅读量426

点赞数 9

文章标签： python

于 2024-01-17 16:55:43 首次发布

本文链接：https://blog.csdn.net/weixin_44091497/article/details/135654974

版权

课程链接：课程链接
代码仓库地址：代码仓库
1、学习总结：
以大型语言模型（LLM）为主脉络，从Transformer模型开始讲解。
Transformer使用纯自注意力机制替代了传统的RNN与CNN网络，极大地提升了模型在处理长文本和长距离依赖关系的效果和速度，为后续大型语言模型的发展奠定了基础。
2、学习心得：
深入学习Transformer模型的架构，理解注意力机制。
● 注意力分数用来表示词元在序列中的重要性，分数越高，说明词元与任务的关联越强
● scaled dot-product attention计算
○ 在这里插入图片描述

● 自注意力分数表示一个序列中，词元与词元之间的关系，query=key=value
● 多头注意力从多方面捕捉输入内容特征，支持并行计算注意力分数
Transformer
● Encoder-Decoder结构
● Encoder负责抓取源序列的特征信息，并传递给Decoder，Decoder逐词输出翻译结果
● 序列在输入前需通过位置编码添加位置信息，此处的编码信息是固定的，不会随模型优化而更新
● EncoderLayer由多头注意力和前馈神经网络两个子层组成，中间进行残差连接与层归一化
● DecoderLayer由两个多头注意力与一个前馈神经网络，共三个子层组成，中间进行残差连接与层归一化
● DecoderLayer的多头子注意力需要额外添加掩码，表示它无法看到后面的词元
3、经验分享：
实践中的调试与优化：在实际实践应用中，调试和优化模型是不可避免的。遇到问题时，需要深入分析模型的输出、梯度和中间表示（这部分需要使用debug功能），以快速定位问题并作出调整。
值得注意的是，要勇于改代码，不要害怕出现bug，出现bug是很正常的事情
4、课程反馈：
课程资料齐全，老师讲解通俗易懂
5、使用MindSpore昇思的体验和反馈：
初步使用感觉良好，使用起来简单、便捷
6、未来展望：
课程上学到的知识让我对transformer的理解更加深入