前言
阅读了一篇ABSA的论文,在这里写下自己的一些理解小笔记,可能有点小乱,原文在这下面:
中文文章链接:论文速递丨ACL 2024:交叉领域情感分析 (qq.com)
1、引言
大多数ABSA模型依赖于同一领域的标注数据,导致在标注数据不足的情况下,模型性能受限。为解决这一问题,部分研究尝试通过领域迁移模型将源领域的知识转移到目标领域,但仍存在标签质量低和生成数据单调等问题。
- 图(a) 展示了在AESC任务中,源领域(笔记本)和目标领域(餐馆)之间的迁移过程中的错误传播问题。由于源领域中的词汇"pad"在目标领域中具有不同的含义,模型错误地将目标领域中的"pad"标记为负面情感,导致生成的句子出现错误。这表明现有方法在迁移过程中可能会传播不准确的标签。
- 图(b) 展示了在ATSE任务中,目标领域(餐馆)的文本虽然生成了正确的伪标签,但生成的句子模式单调,缺乏多样性。两个生成的句子"The pizza is good"虽然正确,但重复且表达形式不够丰富,说明传统数据增强方法在生成多样化数据方面存在局限。
为此,本文提出了"Refining and Synthesis Data Augmentation (RSDA)"框架,通过自然语言推理(NLI)过滤数据并增强多样性,从而提高ABSA模型的鲁棒性和泛化能力。测试表明该框架在跨领域实验中表现出色。
简而言之,本文旨在通过RSDA框架进行数据知识迁