EMNLP‘23:大模型时代的数据标注—FreeAL

本文介绍FreeAL,一种利用大模型和小模型协同工作的主动学习框架,降低数据标注成本,通过大模型生成粗粒度标注,小模型筛选和精炼,显著提升零-shot性能。研究发现即使在大模型盛行的时代,弱监督学习仍有其价值。

本文跟大家介绍我们和网易伏羲合作发表在EMNLP'23主会的工作FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models[1],旨在探讨大模型时代的数据标注该何去何从,我们是否还需要人类标注人员协同进行标注?

图片

Abstract

获取高质量的标记数据以用于模型训练对于各种自然语言处理任务来说往往耗时且劳动密集。尽管提出了许多解决方案,如小型语言模型(SLMs)的主动学习和大型语言模型(LLMs)时代流行的上下文学习,它们在一定程度上缓解了标注负担,但它们的性能仍然取决于人工干预。在LLMs时代如何降低注释成本仍然是一个未被充分探讨的问题。 为了弥合这一差距,我们对传统主动学习进行了革新,并提出了一种创新的协同学习框架FreeAL,以交互式地从LLMs中提炼和过滤任务特定知识。在协同训练期间,LLMs充当主动标注者,灌输其粗粒度知识,而下游SLM被视为学生,用于筛选出高质量的上下文样本以反馈LLMs进行后续标签的精炼。对八个基准数据集的广泛实验证明,FreeAL在没有任何人工监督的情况下,极大地提升了SLM和LLM的零-shot性能。

一些结论

  1. 数据标注依然重要,完全监督、弱监督的小模型在很多场景下比(未精调)大模型强;

  2. 利用LLM进行标注是完全可行的,小模型可以协同进行过滤、精炼大模型的标签;

  3. 弱监督学习、主动学习这两个领域,我想依然有活着的价值。

  4. 开源代码 :GitHub - Justherozen/FreeAL[2]<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI知识图谱大本营

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值