weixin_50030143-CSDN博客

以处理“它”这个词为例，自注意力机制会计算“它”与句子中所有其他词（包括“这只动物”、“没有”、“过”、“马路”、“因为”、“太”、“累了”）的相关性分数。可以发现，当对“it”这个词进行编码时，一个注意力头主要关注“动物”，而另一个注意力头则关注“累”——从某种意义上说，模型对“it”这个词的表示“动物”和“累”。（这里的位置编码方式上下不一样，因为对应的公式是不一样的，这也体现出了位置编码可以选取的方式是多样的，采用sin-cos的方式并不是唯一）最终的输出是该层的输入与前馈神经网络输出的和。

2024-05-27 23:59:03 896

原创 Attention 理解+过程可视化

Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)笔记

2024-05-27 18:52:42 1194

原创《深度学习入门：基于Python的理论与实现》学习笔记

《深度学习入门：基于Python的理论与实现》笔记

2024-05-25 23:57:39 726

原创 linux commend line学习记录

1.shell用户名@主机名，紧接着当前工作目录和一个美元符号。如果提示符的最后一个字符是“#”, 而不是“$”, 那么这个终端会话就有超级用户权限。这意味着，我们或者是以根用户的身份登录，或者是我们选择的终端仿真器提供超级用户（管理员）权限。2.文件管理Linux，以分层目录结构来组织所有文件。这就意味着所有文件组成了一棵树型目录（有时候在其它系统中叫做文件夹），这个目录树可能包含文件和其它的目录。文件系统中的第一级目录称为根目录。根目录包含文件和子目录，子目录包含更多的文件和子目录，依此类推。

2024-05-22 23:52:24 925 2