昇思MindSpore技术公开课-transformer学习概览

课程链接:课程链接
代码仓库地址:代码仓库
1、学习总结:
以大型语言模型(LLM)为主脉络,从Transformer模型开始讲解。
Transformer使用纯自注意力机制替代了传统的RNN与CNN网络,极大地提升了模型在处理长文本和长距离依赖关系的效果和速度,为后续大型语言模型的发展奠定了基础。
2、学习心得:
深入学习Transformer模型的架构,理解注意力机制。
● 注意力分数用来表示词元在序列中的重要性,分数越高,说明词元与任务的关联越强
● scaled dot-product attention计算
在这里插入图片描述

● 自注意力分数表示一个序列中,词元与词元之间的关系,query=key=value
● 多头注意力从多方面捕捉输入内容特征,支持并行计算注意力分数
Transformer
● Encoder-Decoder结构
● Encoder负责抓取源序列的特征信息,并传递给Decoder,Decoder逐词输出翻译结果
● 序列在输入前需通过位置编码添加位置信息,此处的编码信息是固定的,不会随模型优化而更新
● EncoderLayer由多头注意力和前馈神经网络两个子层组成,中间进行残差连接与层归一化
● DecoderLayer由两个多头注意力与一个前馈神经网络,共三个子层组成,中间进行残差连接与层归一化
● DecoderLayer的多头子注意力需要额外添加掩码,表示它无法看到后面的词元
3、经验分享:
实践中的调试与优化: 在实际实践应用中,调试和优化模型是不可避免的。遇到问题时,需要深入分析模型的输出、梯度和中间表示(这部分需要使用debug功能),以快速定位问题并作出调整。
值得注意的是,要勇于改代码,不要害怕出现bug,出现bug是很正常的事情
4、课程反馈:
课程资料齐全,老师讲解通俗易懂
5、使用MindSpore昇思的体验和反馈:
初步使用感觉良好,使用起来简单、便捷
6、未来展望:
课程上学到的知识让我对transformer的理解更加深入

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值