Transformer背景介绍

1.1 Transformer的诞生


2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!


论文地址: https://arxiv.org/pdf/1810.04805.pdf


而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,仍然是:Transformer.


1.2 Transformer的优势


相比之前占领市场的LSTM和GRU模型,Transformer有两个显著的优势:

1, Transformer能够利用分布式GPU进行并行训练,提升模型训练效率.    
2, 在分析预测更长的文本时, 捕捉间隔较长的语义关联效果更好.   

下面是一张在测评比较图:


1.3 Transformer的市场


在著名的SOTA机器翻译榜单上, 几乎所有排名靠前的模型都使用Transformer,

其基本上可以看作是工业界的风向标, 市场空间自然不必多说!

回答: Transformer是一种用于自然语言处理(NLP)任务的模型结构,它在BERT等模型中发挥了重要作用。Transformer最早由谷歌在《Attention is all you need》一文中提出,用于机器翻译任务,并取得了STOA的效果。Transformer的优势在于它利用了self-attention机制,实现了快速并行的训练,解决了传统RNN模型训练慢的问题。Transformer包含了Encoder和Decoder两个部分,其中Encoder用于将输入序列转换为特征表示,而Decoder用于生成输出序列。BERT是基于Transformer的模型,但它只使用了Transformer的Encoder部分,用于上游任务,而不包括下游任务。相比之下,OpenAI GPT使用的是单向Transformer,而BERT使用的是双向TransformerTransformer的强大作用是BERT等模型取得成功的关键因素之一,它在NLP任务中具有广泛的应用。 #### 引用[.reference_title] - *1* [Transformer背景介绍](https://blog.csdn.net/weixin_46556352/article/details/124453724)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Transformer介绍](https://blog.csdn.net/Frank_LJiang/article/details/104382282)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值