[博学谷学习记录] 超强总结，用心分享|人工智能深度学习Self attention机制总结分享

AAALice0.0

于 2023-03-05 23:12:25 发布

阅读量132

点赞数

文章标签：人工智能深度学习学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46515036/article/details/129352886

版权

本文详细探讨了Self-Attention的特点，它允许在序列中直接捕获远距离的语义依赖和结构信息，克服了传统RNN和LSTM在处理长距离依赖时的挑战。同时，文章介绍了Self-Attention中归一化的重要性，以防止训练时的梯度消失问题，确保模型的有效收敛。

摘要由CSDN通过智能技术生成

目录

1. Self-attention的特点

2 Self-attention中的归一化概述

1. Self-attention的特点

self-attention是一种通过自身和自身进行关联的attention机制, 从而得到更好的representation来表达自身.

self-attention是attention机制的一种特殊情况，在self-attention中, Q=K=V, 序列中的每个单词(token)都和该序列中的其他所有单词(token)进行attention规则的计算.

attention机制计算的特点在于, 可以直接跨越一句话中不同距离的token, 可以远距离的学习到序列的知识依赖和语序结构.

从上图中可以看到, self-attention可以远距离的捕捉到语义层面的特征(its的指代对象是Law).
应用传统的RNN, LSTM, 在获取长距离语义特征和结构特征的时候, 需要按照序列顺序依次计算, 距离越远的联系信息的损耗越大, 有效提取和捕获的可能性越小.
但是应用self-attention时, 计算过程中会直接将句子中任意两个token的联系通过一个计算步骤直接联系起来,

关于self-attention为什么要使用(Q, K, V)三元组而不是其他形式:

首先一条就是从分析的角度看, 查询Query是一条独立的序列信息, 通过关键词Key的提示作用, 得到最终语义的真实值Value表达, 数学意义更充分, 完备.
这里不使用(K, V)或者(V)没有什么必须的理由, 也没有相关的论文来严格阐述比较试验的结果差异, 所以可以作为开放性问题未来去探索, 只要明确在经典

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[博学谷学习记录] 超强总结，用心分享|人工智能深度学习Self attention机制总结分享

Self attention机制详解
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。