恒源云(GPUSHARE)_超越预训练 NLP 的模型来喽

本文链接：https://blog.csdn.net/weixin_53977063/article/details/124431991

原文作者 | Mathor

欢迎欢迎，热烈欢迎👏
社区大佬回归啦～
我又可以愉快的搬运文章了！

都让开，我要开始搬运啦。正文开始：

本文基于Arxiv上的一篇论文NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework，清华的几位研究者提出一种任务驱动的语言模型TLM（Task-driven Language Modeling）。不需要大规模的预训练，从零训练一个大模型也能取得SOTA的效果，源码在yaoxingcheng/TLM

INTRODUCTION

作者首先指出，从零开始对RoBERTa-Large进行预训练，需要 $4.36\times 10^{21}$ FLOPs (Floating Point Operations Per second)，大约相当于1000张拥有32G显存的V100显卡运行一天，而训练GPT-3的要求是RoBERTa-Large的50倍。一般的组织根本不可能有这么大的算力，我们顶多是拿别预训练好的模型在自己的下游任务上微调，整个过程称为Pretraining-Finetuning

TLM: TASK-DRIVEN LANGUAGE MODELING

论文中，作者提出一种替代Pretraining-Finetuning这种传统范式的方法，目的是效率更高、算力要求更低的同时几乎不损失性能。具体来说，TLM主要基于两个关键的想法：首先，人类掌握一项任务只需要世界上的一小部分知识（例如学生即便是为考试做准备，也只需要查看世界上所有书籍中某一本里的几个章节）；其次，在有监督的标记数据上进行训练，比在无标记数据上优化语言模型更有效

基于上述动机，TLM使用任务数据作为Query，检索一般语料库中的一个小子集。随后，用检索到的数据和任务数据共同优化监督任务和语言建模任务(MLM)

形式化地描述，给定一个通用的语料库 $\mathcal{D}={d_i}_i$ ，其中 $d_i$ 是一篇文档；给定一系列有监督数据 $\mathcal{T}={(x_i, y_i}_i$ ，其中 $x_i$ 是一条文本数据， $y_i\in \mathcal{Y}$ 是标签。我们的目标是训练一个模型 $f$ 去估计分类的条件概率 $f(x)=\hat{p}(y\mid x)$