mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer

最新推荐文章于 2024-04-11 01:16:09 发布

刘皮狠

最新推荐文章于 2024-04-11 01:16:09 发布

阅读量625

点赞数

分类专栏：论文阅读 NLP 文章标签： transformer 深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43938099/article/details/128079668

版权

NLP 同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

mT5

摘要

研究问题

预训练模型。针对T5只是应用于英语的NLP任务。提出一种多语言版本的T5模型。

主要工作

按照C4数据集的创建方法，创建了一个多语言的数据集mC4。
提出T5的多语言版本mT5。

相关介绍

T5

对所有基于文本的NLP问题使用了统一的“text-to-text”格式。
不适用于分类任务。
它允许对每个任务使用完全相同的训练目标（teacher-forced maximum likelihood）

C4

没有标签的数据集。
收集了750GB的英文文本数据。
只收集英文占比超过99%的文本。
在文档中重复数据删除行，并删除包含坏单词的页面。

mC4

使用cld3来收集超过100种语言的数据。
删除没有以英文终端标点符号结尾的行。
应用一个“行长过滤器(line length filter)”，要求页面包含至少三行包含200个或更多字符的文本。
在文档中重复数据删除行，并删除包含坏单词的页面。

mT5

基于"T5.1.1"，使用GeGLU非线性方法来改进T5，同时缩放 $d_{model}$ 和 $d_{ff}$ 而不是只缩放 $d_{ff}$ 。
在无标签的数据上预训练时不使用dropout。
通过根据概率( $∝|L|^\alpha$ )进行抽样示例来提高低资源语言。其中， $p (L)$ 表示在预训练中从一种给定的语言中采样文本的概率； $∣ L ∣$ 是语言示例的个数； $\alpha$ 是控制如何“提高”对低资源语言进行训练的概率。
将词汇量增加到25万个单词的词汇库。
在预训练模型时使用SentencePiece模型对语言进行采样。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer

mT5论文阅读笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。