![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
野生维C片
这个作者很懒,什么都没留下…
展开
-
Synthesizer: Rethinking Self-Attention in Transformer Models
Synthesizer: Rethinking Self-Attention in Transformer Models这篇论文通过替换Q×KTQ \times K^{T}Q×KTattention矩阵,发现Self-Attention中query-key-value dot product attention并不是不可或缺的。作者分别提出了Dense SynSynthesizer Model和 Random Synthesizer Model对Transformer进行比较研究。SYNTHESIZER原创 2020-07-23 22:24:23 · 712 阅读 · 0 评论 -
Transformer详解
在论文的基础上结合代码来解释Transformer,本文主要阐述了Transformer中涉及的技术的原理,尽可能地去解释这些功能产生了什么作用。Transformer的运行流程如上图所示,输入一串字符通过encoder层得到一个结果,将这个结果送到每一层的DECODER中,最后通过DECODER输出目标结果。上图是论文《attention is all you need》中所展示的transformer结构图,本文以从左往右、从下往上的顺序进行分析。Encoder:class Encode原创 2020-07-16 15:12:22 · 3255 阅读 · 0 评论