自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

对算法理论、算法工程落地、大数据工具等感兴趣

赵队 CSDN认证博客专家 CSDN认证企业博客

码龄7年

27: 原创

9万+: 周排名

85万+: 总排名

44万+: 访问

: 等级

2320: 积分

588: 粉丝

1079: 获赞

180: 评论

3805: 收藏

私信

关注

分类专栏

最新评论

深入理解熵、交叉熵、KL散度、极大似然估计与最大后验估计
选择和努力哪一个重要: 懂了厉害
深入理解transformer源码
可傲天的老实人: 关于mask的作用方式，我个人的理解是：mask作用的对象是score矩阵，score.shape=[batch_size, q_size, q_size]，但作用完后生成的值并非像fig.9那样底部和右部同时被极小值替换，而是只有右部的值被极小值替换。不知我的理解是否正确？
深入理解transformer源码
alascat: 我对掩码也一直难以理解，而且和上面的线性变换后softmax只用一个词所对应的预测不理解，看完你这篇通透了
深入理解transformer源码
alascat: 一样的，先分成h个全连接，再qkv和先全连接再分成多个qkv，其实都是一样的，不过是在理解结构的时候，你把变换后的节点放在同一行还是分层放而已
深入理解transformer源码
m0_73649012: 博主您好，因为有一张位置编码的可视化图，我想问一下虽然看起来每个维度像正余弦，但其实不同的位置cos（）的相位都是不同的吧，比如同样的维度，pos不同就还是会变化，

最新文章

自然语言处理

关注

文章平均质量分 94

总结nlp算法模型原理、代码实现

关注数：文章数：5 文章阅读量：352316 文章收藏量：3868

作者: 赵队

一个兴趣使然的非科班算法工程师

展开