- 博客(10)
- 收藏
- 关注
原创 Transformer总体结构+可视化理解
以处理“它”这个词为例,自注意力机制会计算“它”与句子中所有其他词(包括“这只动物”、“没有”、“过”、“马路”、“因为”、“太”、“累了”)的相关性分数。可以发现,当对“it”这个词进行编码时,一个注意力头主要关注“动物”,而另一个注意力头则关注“累”——从某种意义上说,模型对“it”这个词的表示“动物”和“累”。(这里的位置编码方式上下不一样,因为对应的公式是不一样的,这也体现出了位置编码可以选取的方式是多样的,采用sin-cos的方式并不是唯一)最终的输出是该层的输入与前馈神经网络输出的和。
2024-05-27 23:59:03 896
原创 Attention 理解+过程可视化
Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)笔记
2024-05-27 18:52:42 1194
原创 linux commend line学习记录
1.shell用户名@主机名,紧接着当前工作目录和一个美元符号。如果提示符的最后一个字符是“#”, 而不是“$”, 那么这个终端会话就有超级用户权限。这意味着,我们或者是以根用户的身份登录,或者是我们选择的终端仿真器提供超级用户(管理员)权限。2.文件管理Linux,以分层目录结构来组织所有文件。这就意味着所有文件组成了一棵树型目录(有时候在其它系统中叫做文件夹), 这个目录树可能包含文件和其它的目录。文件系统中的第一级目录称为根目录。根目录包含文件和子目录,子目录包含更多的文件和子目录,依此类推。
2024-05-22 23:52:24 925 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人