一文概括T5模型告诉我们的事 Text-to-Text Transfer Transformer

@NLP

根据不同的下游训练综合实验的判断)

关于模型结构:

计算成本:L层语言模型的等价于L+L层Encoder+Decoder模型
架构上:Encoder+Decoder 的预训练模式最优(优于语言模型和Prefix LM)
无监督的训练目标:
1、BERT式的MASK破坏Token形式最优(优于PrefixLm和Deshuffling)
2、MASK破坏中,连续MASK破坏最优(优于BERT式、MASS式、Drop推测式)
3、MASK破坏率 15%最优
4、连续MASK破坏中,连续破坏3个Token最优

关于数据:

预训练时候,最优是每条数据只让模型看一遍
下游任务的数据越小,预训练的模型越有用

关于finetune:

有三种办法finetune
1、只调整后加的前馈网络
2、逐步解冻transformer不同层的参数
3、全局调整
最优的是全局模型参数一起调整

关于多任务训练:

多任务训练中,缓解数据集大小之间巨大差异的另一种方法是调整混合比率的“温度”
直接对多任务训练的效果不如预训练后对大多数任务进行微调
模型同时针对所有任务进行预训练,然后针对有监督的单个任务进行微调,可以和预训练后对大多数任务进行微调相当

关于模型参数大小:

更大的训练参数(层数、头数、embSize)与训练步数有助于提升基线效果
集成多个独立的模型在某些任务中是简单提升性能的办法
集成 N 个单独的模型与使用具有 N 倍高的计算成本的模型具有相似的成本

T5 论文 https://arxiv.org/abs/1910.10683

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值