EMNLP‘23:大模型时代的数据标注—FreeAL

本文跟大家介绍我们和网易伏羲合作发表在EMNLP'23主会的工作FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models[1],旨在探讨大模型时代的数据标注该何去何从,我们是否还需要人类标注人员协同进行标注?

图片

Abstract

获取高质量的标记数据以用于模型训练对于各种自然语言处理任务来说往往耗时且劳动密集。尽管提出了许多解决方案,如小型语言模型(SLMs)的主动学习和大型语言模型(LLMs)时代流行的上下文学习,它们在一定程度上缓解了标注负担,但它们的性能仍然取决于人工干预。在LLMs时代如何降低注释成本仍然是一个未被充分探讨的问题。 为了弥合这一差距,我们对传统主动学习进行了革新,并提出了一种创新的协同学习框架FreeAL,以交互式地从LLMs中提炼和过滤任务特定知识。在协同训练期间,LLMs充当主动标注者,灌输其粗粒度知识,而下游SLM被视为学生,用于筛选出高质量的上下文样本以反馈LLMs进行后续标签的精炼。对八个基准数据集的广泛实验证明,FreeAL在没有任何人工监督的情况下,极大地提升了SLM和LLM的零-shot性能。

一些结论

  1. 数据标注依然重要,完全监督、弱监督的小模型在很多场景下比(未精调)大模型强;

  2. 利用LLM进行标注是完全可行的,小模型可以协同进行过滤、精炼大模型的标签;

  3. 弱监督学习、主动学习这两个领域,我想依然有活着的价值。

  4. 开源代码 :GitHub - Justherozen/FreeAL[2]

一、背景

过去的5年里,弱监督学习——解决各种低质量的数据标注信息的一个方向——都是我的主要研究方向,也支撑着我完成了博士生涯。然而,在ChatGPT横空出世的时候,我一度非常焦虑,思考弱监督学习是否还有继续研究的必要(当然大家应该都在这么想)。如果大模型已经能够通过Few-shot ICL、Zero-shot完成绝大部分任务,那么弱监督将被扫进历史的垃圾堆。

恰巧当时,我们正在研究Distantly-supervised NER问题,顺手做了一下ChatGPT for NER,发现很奇怪的现象是, ChatGPT的zero-shot NER效果并不好,甚至比大部分DSNER的Baseline低 

此时,有一篇工作A multitask, multilingual, multimodal evaluation of chatgpt on reasoning, hallucination, and interactivity[3]也发现,ChatGPT在绝大部分任务上的few-shot性能远远不如全监督训练的小模型,这也是大家目前比较认可的大模型在细分领域上是不够出色的。

这个结论也不难解释,毕竟大模型在通用语料上进行训练,但没有真正曝光很多细分领域的监督数据,或者是这种通用任务的场景可能会导致模型产生一些负迁移作用。

也就是说,不论用大模型还是小模型,其实还是有很多问题:

(1)大模型:我们可以用Zero/few-shot ICL解决下游任务,人力标注几乎为0,但是光靠大模型呢,部署成本较高,效果不总是尽如人意。(精调成本更高)

(2)小模型:直接用小模型的话,我们要收集很多标注数据,人力成本更高了。也许我们可以使用半监督、主动学习缓解一下标注成本,但总是需要一定的人力成本。

显然, 数据标注仍然十分重要(毕竟数据是AI的“燃料”)。那么, 如何能够在极低的人力成本条件下,达到更高的下游任务性能呢?我们的答案是大模型时代的主动学习技术FreeAL——大小模型协同工作,达到Human-Free的数据标注 。

二、FreeAL框架

要理解FreeAL,我们可以思考人类在数据标注的过程中做了什么。通常来说,我们会标完所有数据集,接着我们要做校验挑选出错误的数据,最后再进行修正,每个步骤都需要人力。

传统的主动学习呢,降低了第一步的标注成本,通过迭代标注小部分数据,然后通过模型的Uncertainty(或Feature-based Diversity)进行校验,筛选剩余有价值的样本进行再标注。这有两个问题,首先是,少量标注其实很难训练很好的模型,影响后续筛选的步骤,其次传统AL还是需要大量的人力成本,目前的AL论文大部分都得标10%~50%以上的数据才能达到较好的性能。

图片

那么我们是否能够完全抛弃人工标注,自动化数据标注的过程呢?

(1)如何标注?ChatGPT可以作为一个完全无需人力的弱标注者,来全量标注整个数据集,当然这会带来一定的噪声。

(2)如何校验?传统AL能够提供一个启示,即小模型实际上是能够通过训练的过程自动挖掘一些样本来标注的。实际上,这也是弱监督学习里面一个重要的Topic——样本筛选,也就是定位干净样本,过滤出来错误的样本,两种样本分别用不同的技术进行处理。我们在IJCAI'23发表的ProMix算法就讨论了如何最大程度筛选干净样本,目前仍是CIFAR-N benchmark的SOTA方法。

(3)如何再标注?既然能定位到错误样本,那么也能找到干净样本,就可以用它们提升ICL的准确率,迭代演进。

没错,这就是我们FreeAL的框架——大模型提供标注,小模型进行蒸馏,再回流大模型进行更准的ICL。

图片

2.1 大模型标注

对于大模型来说,我们要做的就是找到更多的示例样本去提升大模型的few-shot性能。不过,这在刚开始的标注轮次并不是显然的(毕竟我们选择了Human-Free这个完全抛弃人类标注的设定),所以本文我们选择让大模型自己生成一些demo样本,具体思想也比较简单,就是告诉ChatGPT, 标签是什么,并给几个无标注样本作为示意 ,让大模型学习无标注文本的风格信息,然后生成符合标签信息的样本。那我们就可以用它得到一个初始的demo set,我们发现这在某些数据集(如SUBJ)可以提升28个点。

在后续的轮次呢,我们就等小模型筛选的结果去做ICL即可。

2.2 小模型蒸馏

这一块实际上我们采用了Small-Loss Selection的策略挑选干净样本,结合半监督完成噪声标记学习。相信做弱监督学习的同学应该不会陌生。不过,小模型训练的时候,其实筛选的“干净样本”里混一些错的也没什么问题,性能还是会提升,但是要做ICL的话,我们还是希望更干净的demo set,所以我们又根据loss逐类精心挑选了一些。这里逐类挑选还是为了考虑到diversity。最后,我们可以反馈给大模型进行修复即可。因为我们做了全量的标注,其实两个轮次基本就可以收敛到很好的结果。

三、实验结果

实验中,FreeAL的效果还是很出色的,证明了大模型可以作为一种监督信息的来源。一个有意思的结果是,弱监督蒸馏出来的RoBERTa,只有在样本特别少的SST-2和MR上是ChatGPT效果比较好,数据集规模稍微大一些,小模型就会比ChatGPT做ICL的效果要好。

图片

我们也对比了一下传统的AL,发现在一些数据集上是能够超过人类标注的结果的。

图片

四、总结

通过这个工作,一个让我很欣慰的结论是,至少在下个世代的大模型出来之前,弱监督学习、数据标注依然是重要的。事实上,由于很多领域的隐私问题,很多研究者都比较认可开发垂域大模型的重要性,其中数据标注必然是重要的一环。而我们FreeAL就给了这么一个可以大幅降低数据标注成本的方案。

当然,我们这篇文章探讨的设置较为极端,研究了完全抛弃了真人标注者的可行性。我们实验中也发现,FreeAL和完全监督小模型还是有一定的差距,实际应用中还是建议加一些人工标注的(挖个继续研究AL的坑)。

  • 19
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI知识图谱大本营

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值