@NLP
根据不同的下游训练综合实验的判断)
关于模型结构:
计算成本:L层语言模型的等价于L+L层Encoder+Decoder模型
架构上:Encoder+Decoder 的预训练模式最优(优于语言模型和Prefix LM)
无监督的训练目标:
1、BERT式的MASK破坏Token形式最优(优于PrefixLm和Deshuffling)
2、MASK破坏中,连续MASK破坏最优(优于BERT式、MASS式、Drop推测式)
3、MASK破坏率 15%最优
4、连续MASK破坏中,连续破坏3个Token最优
关于数据:
预训练时候,最优是每条数据只让模型看一遍
下游任务的数据越小,预训练的模型越有用
关于finetune:
有三种办法finetune
1、只调整后加的前馈网络
2、逐步解冻transformer不同层的参数
3、全局调整
最优的是全局模型参数一起调整
关于多任务训练:
多任务训练中,缓解数据集大小之间巨大差异的另一种方法是调整混合比率的“温度”
直接对多任务训练的效果不如预训练后对大多数任务进行微调
模型同时针对所有任务进行预训练,然后针对有监督的单个任务进行微调,可以和预训练后对大多数任务进行微调相当
关于模型参数大小:
更大的训练参数(层数、头数、embSize)与训练步数有助于提升基线效果
集成多个独立的模型在某些任务中是简单提升性能的办法
集成 N 个单独的模型与使用具有 N 倍高的计算成本的模型具有相似的成本
T5 论文 https://arxiv.org/abs/1910.10683