Transformer and Pretrain Language Models3-3

最新推荐文章于 2024-07-26 06:30:00 发布

ringthebell

最新推荐文章于 2024-07-26 06:30:00 发布

阅读量357

点赞数 6

分类专栏：大模型文章标签： transformer 语言模型深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58810992/article/details/135732051

版权

大模型专栏收录该内容

12 篇文章 1 订阅

订阅专栏

本文探讨了注意力机制如何解决信息瓶颈、缓解RNN中的梯度消失问题，以及提高神经网络的可解释性。通过实例分析，注意力机制实现了短软对齐，增强了模型在机器翻译等NLP任务中的性能。

摘要由CSDN通过智能技术生成

insights of attention注意力机制的特点

我们引入的attention机制到底给端到端的模型带来了什么变化？

1、信息瓶颈问题：注意力机制的出发点首先就是为了解决信息瓶颈问题而存在的，这样我们通过注意力机制decoder端在每次生成的时候，都可以直接关注到encoder端所有位置的信息，信息瓶颈的问题就可以有效地解决了

2、注意力机制同样很有效地缓解了RNN中的梯度消失的问题，它通过在encoder和decoder之间提供了一种直接连接方式，防止了梯度在RNN中会传播过长，进而导致梯度消失

3、注意力机制也给神经网络这样一个黑匣子的模型，提供一定的可解释性，我们通过将decoder端每次的注意力分布可视化，我们可以画出右边这样的一个图，黑色表示注意力分数比较低，越接近白色，表示这个值越高。我们可以看到对于前面机器翻译的这样一个任务，注意力机制其实实现了一种短软对齐的策略，它翻译得到的英文单词会更加关注和表示相同含义的中文单词，比如这里的many更多和airport机场，这样的一个可视化，我们也可以发现模型在一定程度上，学习到这两个语言中一种语义的对齐关系，所以总体来看，注意力机制给RNN带来了很多有益的改变，而且极大地提高了RNN在不同的NLP任务上的表现

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Transformer and Pretrain Language Models3-3

我们可以看到对于前面机器翻译的这样一个任务，注意力机制其实实现了一种短软对齐的策略，它翻译得到的英文单词会更加关注和表示相同含义的中文单词，比如这里的many更多和airport机场，这样的一个可视化，我们也可以发现模型在一定程度上，学习到这两个语言中一种语义的对齐关系，所以总体来看，注意力机制给RNN带来了很多有益的改变，而且极大地提高了RNN在不同的NLP任务上的表现。我们引入的attention机制到底给端到端的模型带来了什么变化？
复制链接

扫一扫

专栏目录

ringthebell CSDN认证博客专家 CSDN认证企业博客

码龄3年

36: 原创

62万+: 周排名

8万+: 总排名

2万+: 访问

: 等级

848: 积分

337: 粉丝

488: 获赞

4: 评论

431: 收藏

私信

关注

热门文章

分类专栏

最新评论

neural network basics2-1
CSDN-Ada助手: 恭喜您写了第19篇博客！您对神经网络基础知识的探索和分享让我受益匪浅。希望您能继续保持创作的热情，不断深入探索神经网络相关的知识，或许可以考虑分享一些实际案例或者应用场景，让我们更好地理解和应用这些知识。期待您的下一篇作品！
Big Model Basics1-2
CSDN-Ada助手: 恭喜您写完了第18篇博客！标题“Big Model Basics1-2”听起来非常有趣。您在持续创作方面的努力真是令人佩服。我希望您能继续分享关于“Big Model Basics”的知识，因为我相信这个话题有很多人会感兴趣。或许您可以考虑深入探讨一些实际应用案例或者分享一些具体的技巧，帮助读者更好地理解和运用这些基础知识。再次恭喜您，并期待您未来的创作！
NLP Basics1-1
CSDN-Ada助手: 恭喜你撰写了关于NLP基础知识的博客！你对这个话题的深入了解让我印象深刻。接下来，我想提醒你可以考虑增加一些实际案例或者应用场景，这样读者能更好地理解NLP在现实生活中的应用。希望你可以继续保持创作的热情，期待看到更多精彩的内容！
书生大模型全链路开源体系1
CSDN-Ada助手: 恭喜您撰写的第16篇博客《书生大模型全链路开源体系1》！非常高兴看到您在持续创作上取得了如此的成就。您的博客标题非常吸引人，我认为这将为读者提供深入了解书生大模型全链路开源体系的机会。我希望您能继续保持创作的热情，并继续分享您的见解和经验。在下一步的创作中，或许您可以加入一些实例或案例分析，以便更直观地展示该开源体系的应用场景和优势。感谢您的无私贡献，期待您未来更多精彩的博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。