transformer

最新推荐文章于 2019-09-12 14:57:17 发布

丁叔叔

最新推荐文章于 2019-09-12 14:57:17 发布

阅读量114

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43758551/article/details/98227410

版权

NLP 专栏收录该内容

49 篇文章 0 订阅

订阅专栏

https://blog.csdn.net/Magical_Bubble/article/details/89083225

Seq2Seq model with “self-attention”

https://zhuanlan.zhihu.com/p/54743941
放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较

https://jalammar.github.io/illustrated-transformer/
transformer 英文介绍
https://zhuanlan.zhihu.com/p/54356280
TRANSFORMER 中文介绍，上面的翻译

再然后可以进阶一下，参考哈佛大学NLP研究组写的“The Annotated Transformer. ”，代码原理双管齐下，讲得也很清楚。
http://nlp.seas.harvard.edu/2018/04/03/attention.html

https://mp.weixin.qq.com/s/_rP-0WgqRCyKq5toXLCEvw

http://jalammar.github.io/illustrated-transformer/

在这里插入图片描述
上图是Transformer中，第一个sub-layer的结构示意图。其特别之处只有输入接收的为字向量和位置编码的和，其他sub-layer的输入为上一层sub-layer的输出。每一个sub-layer，除上述差异之外，别无二致，所以我们只需要了解一个就可以。

通常，会有多层这样的sub-layer，在Bert-base中，有12层，GPT-2.0则更深，所以参数量都很大。GPT-2.0的参数量达到了“丧心病狂”的3亿之多，是名副其实的大模型了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer

Seq2Seq model with “self-attention”
复制链接

扫一扫

专栏目录

博客等级

码龄6年

322
原创

191
点赞

792
收藏

56
粉丝

关注

私信

热门文章

分类专栏

产品经理 47篇
问答系统
听书 1篇
neo4j 1篇
测试 5篇
postman 1篇
数据挖掘 2篇
前端 5篇
JAVA
linux 2篇
Git教程 4篇
SPARQL 1篇
protege学习 2篇
PRD撰写
Pytroch 12篇
NLP 49篇
深度学习 34篇
机器学习 46篇
sk-learn 11篇
tf 10篇
爬虫 7篇
爬虫实例 7篇
numpy 3篇
pandas 1篇
matplotlib 6篇
python基础 12篇
opencv 1篇
目标检测 2篇
知识图谱 29篇

最新评论

pyltp
不规则大黄鸭: 把语义角色标注结果的解释写清楚了👍
利用tf-idf计算文本相似度
我不是大佬zvj: 在代码里面写绝对路径，你是有点逆天，我复制下来都不好使，还要一个一个改，浪费时间
利用tf-idf计算文本相似度
Domices: 假如所有的文章都不包含这个词，那这个词为什么会被拿来计算呢
matplotlib取消边框
Acowardintheworld: 谢啦就是这个看到好几篇文章，全都是基于子图的
Hmm 和CRF区别
fishguy2022: crf也可以分词啊，词性标注不就是分词吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。