简介: 7月8日,中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果,阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队,在大模型和无参数限制模型双赛道总成绩第一名,决赛答辩总成绩第一名。
作者 | 同润、归雨、熊兮
来源 | 阿里技术公众号
一 概述
7月8日,中文语言理解权威评测基准CLUE公开了中文小样本学习评测榜单最新结果,阿里云计算平台PAI团队携手达摩院智能对话与服务技术团队,在大模型和无参数限制模型双赛道总成绩第一名,决赛答辩总成绩第一名。
中文语言理解权威评测基准CLUE自成立以来发布了多项NLP评测基准,包括分类榜单,阅读理解榜单和自然语言推断榜单等,在学术界、工业界产生了深远影响。其中,FewCLUE是CLUE最新推出的一项中文小样本学习评测基准,用来评估机器学习模型是否能够通过极少样本的学习来掌握特定的自然语言处理任务。基于这项评估,科研人员可以更精准的衡量机器学习训练出来的模型的泛化性和准确率。比如智能客服场景中的用户意图识别,仅需人工标注几十条样本,就能让意图识别的准确率达到90%。
众所周知,大规模预训练模型虽然在各大任务里面取得非常大的效果,但是在特定的任务上,还是需要许多标注数据。由于收集和标注模型需要的训练的数据收集成本昂贵,所以需要攻关小样本学习技术,使用远小于经典深度学习算法需要的数据量,接近甚至超越经典深度学习算法的精度。此次,阿里云PAI团队携手达摩院提出了一套大模型+小样本的联合方案,在大规模通用预训练基础之上,结合了基于知识的预训练和Fuzzy-PET少样本学习,一举取得了优异的成绩。甚至在一个小样本学习任务上的精准度超过了人类。
二 赛题分析 & 建模思路
比赛数据集总体特点如下:
- 小样本:训练集和检验集均为每个类别16shot,考验算法在小样本情境下的鲁棒性
- 泛化性:任务特征差异明显,需要模型有较好的泛化能力
- 无标签数据:多数任务提供了数量可观的无标签数据,可以尝试continued pretrain和self-training
基于对赛题的解读,我们设计了三段式的建模方法:
- 通用领域数据的从头预训练:借助PAI-Rapidformer提供的各种加速策略以及预训练套件,我们从头预训练了3亿量级和15亿量级的中文预训练模型,预训练过程采用融入知识的预训练算法(详见3.2)。
- 多任务的继续预训练:目的是进一步强化双句匹配任务(OCNLI, BUSTM, CSL)的Performance。我们将分类任务转化为文本蕴含任务,使用文本蕴含数据进行Continued Pretrain。例如 [CLS]I like the movie[SEP]This indicates positive user sentiment[EOS]
- 针对每个任务进行小样本算法微调:选择PET(Pattern-Exploiting Training)