mT5
摘要
研究问题
预训练模型。针对T5只是应用于英语的NLP任务。提出一种多语言版本的T5模型。
主要工作
- 按照C4数据集的创建方法,创建了一个多语言的数据集mC4。
- 提出T5的多语言版本mT5。
相关介绍
T5
- 对所有基于文本的NLP问题使用了统一的“text-to-text”格式。
- 不适用于分类任务。
- 它允许对每个任务使用完全相同的训练目标(teacher-forced maximum likelihood)
C4
- 没有标签的数据集。
- 收集了750GB的英文文本数据。
- 只收集英文占比超过99%的文本。
- 在文档中重复数据删除行,并删除包含坏单词的页面。
mC4
- 使用cld3来收集超过100种语言的数据。
- 删除没有以英文终端标点符号结尾的行。
- 应用一个“行长过滤器(line length filter)”,要求页面包含至少三行包含200个或更多字符的文本。
- 在文档中重复数据删除行,并删除包含坏单词的页面。
mT5
- 基于"T5.1.1",使用GeGLU非线性方法来改进T5,同时缩放 d m o d e l d_{model} dmodel和 d f f d_{ff} dff而不是只缩放 d f f d_{ff} dff。
- 在无标签的数据上预训练时不使用dropout。
- 通过根据概率( p ( L ) ∝ ∣ L ∣ α p(L) ∝|L|^\alpha p(L)∝∣L∣α)进行抽样示例来提高低资源语言。其中, p ( L ) p(L) p(L)表示在预训练中从一种给定的语言中采样文本的概率; ∣ L ∣ |L| ∣L∣是语言示例的个数; α \alpha α是控制如何“提高”对低资源语言进行训练的概率。
- 将词汇量增加到25万个单词的词汇库。
- 在预训练模型时使用SentencePiece模型对语言进行采样。