![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer
Winner~!
日拱一卒
展开
-
数据白化操作
bert whitening原创 2022-06-23 15:28:55 · 645 阅读 · 0 评论 -
Transformer 好文章
原文: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf 主要是探究 Layer normalization、warm up和梯度的关系。 1603.05027.pdf (arxiv.org) 1908.11365.pdf (arxiv.org) On Layer Normalization in the Transformer Architecture | Op...原创 2022-04-11 22:06:23 · 233 阅读 · 0 评论