本文跟大家介绍我们和网易伏羲合作发表在EMNLP'23主会的工作FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models[1],旨在探讨大模型时代的数据标注该何去何从,我们是否还需要人类标注人员协同进行标注?

Abstract
获取高质量的标记数据以用于模型训练对于各种自然语言处理任务来说往往耗时且劳动密集。尽管提出了许多解决方案,如小型语言模型(SLMs)的主动学习和大型语言模型(LLMs)时代流行的上下文学习,它们在一定程度上缓解了标注负担,但它们的性能仍然取决于人工干预。在LLMs时代如何降低注释成本仍然是一个未被充分探讨的问题。 为了弥合这一差距,我们对传统主动学习进行了革新,并提出了一种创新的协同学习框架FreeAL,以交互式地从LLMs中提炼和过滤任务特定知识。在协同训练期间,LLMs充当主动标注者,灌输其粗粒度知识,而下游SLM被视为学生,用于筛选出高质量的上下文样本以反馈LLMs进行后续标签的精炼。对八个基准数据集的广泛实验证明,FreeAL在没有任何人工监督的情况下,极大地提升了SLM和LLM的零-shot性能。
一些结论
-
数据标注依然重要,完全监督、弱监督的小模型在很多场景下比(未精调)大模型强;
-
利用LLM进行标注是完全可行的,小模型可以协同进行过滤、精炼大模型的标签;
-
弱监督学习、主动学习这两个领域,我想依然有活着的价值。
-
开源代码 :GitHub - Justherozen/FreeAL[2]<

本文介绍FreeAL,一种利用大模型和小模型协同工作的主动学习框架,降低数据标注成本,通过大模型生成粗粒度标注,小模型筛选和精炼,显著提升零-shot性能。研究发现即使在大模型盛行的时代,弱监督学习仍有其价值。
最低0.47元/天 解锁文章
1538

被折叠的 条评论
为什么被折叠?



