Chain-of-Thought Embeddings for Stance Detection on Social Media 社交媒体立场检测的思维链嵌入 论文翻译

摘要

社交媒体上的立场检测对于大型语言模型(llm)来说是一个挑战,因为在线对话中出现的俚语和口语通常包含非常隐含的立场标签。思维链(COT)提示最近被证明可以提高立场检测任务的性能,从而缓解了这些问题。然而,COT 提示仍然难以解决隐式立场识别问题。这一挑战的出现是因为在模型熟悉俚语和与不同主题相关的不断发展的知识之前,许多样本最初很难理解,所有这些都需要通过训练数据获得。在本研究中,我们通过引入COT嵌入来解决这个问题,通过嵌入COT推理并将其集成到传统的基于roberta的立场检测管道中,提高了COT在立场检测任务中的性能。我们的分析表明,1) 文本编码器可以利用带有微小错误或幻觉的 COT 推理,否则会扭曲 COT 输出标签。 2) 当样本的预测严重依赖于特定领域的模式时,文本编码器可能会忽略误导性的 COT 推理。我们的模型在从社交媒体收集的多个姿态检测数据集上实现了 SOTA 性能。

1引言

检测文本相对于特定主题的立场对于许多 NLP 任务至关重要(Hardalov 等人,2022)。在 Twitter 等社交媒体平台上检测立场提出了独特的挑战,因为新兴知识和口语语言模式可能使得在没有额外上下文的情况下很难检测立场。例如,考虑图 1 中显示的顶部推文。该推文没有直接提及唐纳德·特朗普,因此在没有进一步背景的情况下很难进行分类,例如 Twitter 上的特朗普支持者如何广泛支持选民欺诈宣传。这些新兴知识对于具有知识界限的LLMs来说很难理解,只能通过观察训练集中类似标记的样本来辨别。      

图1:思维链推理模型常犯的错误。隐式立场混淆是指大语言模型无法理解对立场主题的隐式引用。在上面的例子中,ChatGPT应该预测这条推文是支持特朗普的。在这种情况下,立场标签幻觉指的是大语言模型使用标签空间来争论错误观点的情况。在这个例子中,推理是正确的,但是ChatGPT对错误的主题使用了[In FAVOR]标签。 

解决这个问题的一种方法是采用具有广泛世界知识的模型。例如,最近的研究表明,在立场检测中使用ChatGPT可以显著提高性能(Zhang等人,2023a,b)。不幸的是,大语言模型(例如,ChatGPT, Llama)在理解Twitter数据中复杂的立场关系方面仍然存在许多问题。在这项研究中,我们强调了最先进的思维链(COT)提示方法在立场检测中的两个问题。1)隐式立场混淆:如图1所示,即使采用COT推理等高级提示策略,大语言模型仍然难以理解隐式推文立场(Wei et al., 2023)。2)立场标签幻觉:大语言模型容易产生幻觉,这导致它们输出正确的推理,但对于错误的立场主题(参见图1示例)。即使大语言模型分析了正确的主题,他们也容易错误地使用提供的标签空间,产生准确但结构不良的输出。

在本研究中,我们通过引入思维链(COT)嵌入来缓解这两个问题。我们的方法将COT推理文本提供给transformer编码器,作为传统立场检测管道中的附加功能。这种方法背后的直觉有三个方面:(i)如果 COT 推理正确,文本编码器对立场标签幻觉具有鲁棒性。这可以使不正确的 COT 预测在文本分类管道中发挥作用。 (ii) 文本编码器可以根据需要选择忽略某些信号。因此,当样本过于隐含而无法被LLMs理解时,模型可能会选择关注相似推文的分类方式。 (iii) COT 推理可以将世界知识注入文本编码器。也就是说,COT 文本通常包含基于推文中无法获得的世界知识的推理和理由。我们发现,通过使用这种方法,我们可以在多个立场检测数据集上取得最先进的结果。

我们的贡献总结如下:

  1. 据我们所知,这是对COT推理嵌入的第一次调查。我们的方法在两个立场检测数据集上取得了最先进的结果:Tweet-Stance (Mohammad et al., 2016;Barbieri et ., 2020)和Presidential-Stance (Kawintiranon and Singh, 2021)。
  2. 我们对COT推理的误差分析突出了立场检测任务的两个关键缺陷:隐式立场混淆和立场标签幻觉。我们的方法,思想链嵌入,使COT输出对这两个问题更加健壮。

2相关工作 

立场检测:这项任务是一个经过充分探索的研究问题,早期的研究采用了各种机器学习和深度学习技术(Hardalov et al., 2022)。大型语言模型的出现进一步推动了许多立场检测数据集上的最先进性能(Li和Caragea, 2021)。许多立场检测问题需要特定领域的解决方案,其模型明确地将世界知识注入立场检测系统(He et al., 2022;刘等人,2021)。这项工作的动机是知识灌输,但与现有的工作有很大的不同。据我们所知,虽然之前的一些工作已经使用提示进行立场检测(Zhang等人,2023b),但没有工作试图使用大语言模型作为改进立场检测的知识库。虽然我们也没有明确地探索大语言模型作为知识提取工具,但我们确实发现,由于COT文本生成的性质,我们的方法具有将世界知识注入推理管道的能力。                

用于立场检测的大语言模型 最近,很少有研究直接使用ChatGPT进行立场检测Zhang et al. (2023a,b)。在(Zhang et al., 2023b)中,作者通过提示ChatGPT进行思维链推理,在多个立场检测数据集上取得了优异的性能。在本研究中,我们使用了类似的提示策略来执行立场检测,但展示了嵌入这些COT推理文本并将其用作立场检测管道中的特征的好处。

3方法

我们对每个数据集中的每条推文使用1次COT提示,旨在确定推文与特定主题的立场。我们特别要求模型提供COT推理,并将其预测标签包含在括号中(例如,中性tweet的[NEUTRAL]),以便可以解析输出并将其转换为数字表示。在图1中可以找到一个示例tweet和相应的COT摘录。

在生成给定文本的COT推理后,我们将其嵌入到transformer编码器中,并将其用作立场检测管道的一部分。我们特别使用在Twitter数据上训练的RoBERTa模型(Liu et al., 2019)作为我们的编码器,因为与RoBERTa-base相比,它在Tweet-Stance上的表现更好。本文将该模型记为Twitter-RoBERTa (TR)。

我们在实验中考虑了三种不同的Twitter-RoBERTa变体。TR-Tweet:我们只对tweet信息进行微调。TR-COT:仅使用COT推理作为输入的微调,TRTweet+COT:微调Twitter-RoBERTa,其中tweet和COT推理被视为模型的成对输入(即tweet和COT推理文本由预训练的语言模型连接并联合编码)。所有的微调都遵循(Devlin et al., 2018)中引入的标准文本分类管道。请参阅附录A,了解每个立场检测任务的模型超参数和训练细节。

3.1 数据集

我们在两个著名的基于 Twitter 的立场检测数据集上评估我们的方法:Tweet-Stance(Mohammad 等人,2016;Barbieri 等人,2020)和 Presidential-Stance(Kawintiranon 和 Singh,2021)。,这些数据集涉及三向分类任务,以确定推文对特定主题是支持、反对还是中立。 ,Tweet-Stance 数据集包含五个主题:希拉里·克林顿 (HC)、女权主义 (FM)、堕胎 (LA)、无神论 (AT) 和气候变化 (CC)。 ,Presidential-Stance 数据集包含两个关注 2020 年选举周期的子任务,并注释了对总统候选人乔·拜登 (BD) 和唐纳德·特朗普 (TR) 的立场。,表 1 和表 2 分别列出了两个数据集的训练、开发和测试集的主题和类别分布和统计数据。,按类别分布表明两个数据集都偏向于反对类别。

表 1:Tweet-Stance 和 Presidential-Stance 数据集的训练、验证、测试和类别按主题(例如 HC、FM、TR)分布。Presidential-Stance 数据集没有验证集。 

表 2:推文立场和总统立场数据集的类别(即中立、反对、赞成)训练、验证和测试集统计数据。,请注意,我们在实验中聚合了 Tweet-Stance 中的主题。 

3.2 评估

Tweet-Stance:我们报告了(Barbieri 等人,2020)中定义的支持和反对 F1 分数的宏观平均值。,我们报告了 3 种基于编码器的姿态检测模型的基线性能:BERTSpc(Devlin 等人,2018)、BERT-GCN(Lin 等人,2021)和 PT-HCL(Liang 等人,2022)以及两个,基于 ChatGPT 提示的方法:DQA 和 StSQA(Zhang 等人,2023b)。,所有基线分数均从(Zhang et al., 2023b)中提取,我们注意到评估仅在标签空间的子集上进行。 

Presidential-Stance:我们同时报告了一级F1得分和宏观平均F1得分(Kawintiranon和Singh,2021)。由于缺乏总统立场的发展,我们报告了三个不同随机种子的实验的平均结果。我们报告了三个基线模型的结果:BERT(Devlin等人,2018)、Skep(Tian等人,2020)和KEMLM(Kawintiranon和Singh,2021)。

4结果 

4.1 Tweet-Stance

表 3:Tweet-Stance 数据集的结果。 ,F1avg 列表示完整测试集上的 F1 分数。,上面还通过按主题对 TweetStance 进行子集化并重新计算 F1 分数来报告每个主题的 F1 分数。,标有 † 的结果取自之前的工作。 

Tweet-Stance 的结果如表 3 所示。结果表明,TR-Tweet+COT 在 Tweet-Stance 上产生了性能最好的模型,F1 得分为 76.3。,值得注意的是,我们可以通过仅嵌入 COT 推理来保留大部分性能,因为 TR-COT 与 TR-Tweet+COT 的 F1 差异仅 0.6。,我们的最佳模型比我们的 ChatGPT COT 推理模型提高了 6.1 点,并且与直接从 COT 提取结果相比,简单地嵌入 COT 可以使 F1 提高 5.5 点。 

在调查了 TR-Tweet+COT 正确但与 ChatGPT COT 的预测不符的样本子集后,我们发现 74% (131/175) 的样本位于被 ChatGPT COT 错误标记为中性的推文上。,这证实了我们的直觉:将 COT 信息传递给文本编码器可能有助于解决隐式立场混淆问题。,在剩下的 44 个样本中,TRTweet+COT 能够正确预测,我们手动检查了 20/44 个样本,其中 ChatGPT 在真实标签为“赞成”时预测为“反对”。我们发现 9/9 的样本来自 HC、FM、 LA、AT 主题是立场标签幻觉的例子。例如,考虑 COT 推理:“……很明显[不],这篇文章反对杰布·布什并支持希拉里”。,该文本被我们的 COT 解析器标记为“[NO] = Against Hillary”,但能够用我们的编码器模型处理,因为推理是准确的。本分析中的其余11个样本来自气候变化主题,其中大多数COT错误主要与“赞成”或“反对”气候变化的含义有关,我们认为这更多是一种自然的误解,而不是立场标签幻觉的实例。未来的工作可能会探索更好的提示,以引出对气候变化推文的更好预测。

在表5中,我们评估了不同大语言模型产生的COT的性能。我们发现,虽然ChatGPT产生了性能最高的COT,但当使用较小的开源LLM Llama-2-7b3时,我们实现了有意义的性能提升(Touvron等人,2023)。不幸的是,性能较差的大语言模型,如falcon - 7b4 (Almazrouei等人,2023)并没有提供有用的COT,这突出了LLM性能在这项任务中的重要性。

表5:不同大语言模型在Tweet立场、总统立场拜登(P-Biden)和总统立场特朗普(P-Trump)上的F1得分比较。回想一下,总统立场没有发展集,因此我们报告三个实验试验的平均结果(和标准差)。我们的结果发现,在一般情况下,ChatGPT是性能最高的LLM。我们还使用Llama-2(一个较小的开源模型)验证了我们的方法的有效性。 

4.2 Presidential-Stance

表4:总统立场数据集的拜登和特朗普子集的F1分数。我们展示了支持类、反对类和中立类的性能。平均分数是每个类别的Macro-F1分数。所有COT-Embeddings + Twitter-RoBERTa实验均为三次实验的平均分。以†标记的基线结果取自先前的工作。各实验标准差见附录D。 

表4给出了PresidentialStance数据集的结果。结果表明,我们的方法优于所有基线模型。当我们分析拜登的数据时,TR-Tweet+COT比之前的工作f1高出1.4。一个非常有趣的结果是ChatGPT-COT和TR-COT在性能上的巨大差异,后者在F1得分上提高了20.7分。这是由大量的隐式立场混淆示例驱动的,在这些示例中,如果没有看到其他训练样本,就很难理解标签。具体来说,我们的模型在56%的时间里纠正了中立阶级的预测——因为ChatGPT可以假设提到的民主人物或理想是对乔·拜登采取立场——但情况并非总是如此,导致中立样本的预测不足。我们的错误分析还发现,当推特的焦点是另一个政治人物时,ChatGPT的立场标签幻觉被发现偏离了主题:“哇,伯尼·桑德斯是唯一一个支持民主的人#demdebate”引发了ChatGPT的回应:“……这条推特(支持)伯尼·桑德斯。”这当然不是问题所在。

同样,在特朗普的数据上,我们发现我们表现最好的模型比最接近的基线f1高出2.4 分。有趣的是,我们注意到我们的最佳模型根本没有使用tweet信息,因为TR-COT获得了最高的平均F1分数(81.5)。这一结果表明,COT推理通常在逻辑上是合理的,但我们的TR-COT模型使预测对ChatGPT COT输出结构中的错误更加稳健。

在表5中,我们再次评估了不同大语言模型对总统立场产生的COT的表现。我们发现,在拜登和特朗普的数据集上,ChatGPT提供了最高性能的COT。在拜登和特朗普的数据集上,我们还发现羊驼-2的表现比猎鹰好得多,再次强调了LLM质量在我们的产品线中的重要性。值得注意的是,羊驼-2只为拜登的数据集提供了有用的COT,而不是特朗普。然而,这个结果是预期的,因为ChatGPT,一个比美洲驼- 27b性能更高的语言模型,只提供了一个比基线TR-Tweet小的改进。

5结论

在这项研究中,我们已经证明,嵌入从大语言模型(例如,ChatGPT, Lllama)中提取的思维链推理可以提高立场检测模型的性能。具体来说,我们强调了如何通过增加嵌入COT的文本编码器来超越普通的COT。我们的分析强调了文本编码器如何对LLM幻觉具有鲁棒性,并有助于预测深度隐式立场标签。我们鼓励未来的工作考虑在使用社交媒体数据的立场检测和类似任务中嵌入COT推理。

6限制

这项工作的一个局限性是,使用COT推理的立场检测对提供给ChatGPT的提示非常敏感(Zhang等人,2023b)。在本研究中,我们没有深入研究哪种COT提示产生最好的结果,而是尝试了一些受相关作品启发的标准方法。未来的工作旨在优化立场检测的COT提示结构,可能会找到减少错误幻觉影响的方法。一般来说,我们的工作通过减轻与常见COT错误相关的问题,减少了对快速优化的需求。

这项工作的另一个局限性是,它的核心结论之一——COT嵌入减少了隐性立场混淆的影响——可能只适用于流行的社交媒体平台,在那里口语不断变化。将COT嵌入应用到其他领域,其中所有必要的推断信息都存在于单个样本中(例如,在某些NLI任务中),COT嵌入可能没有那么有用。

最后,我们注意到加入COT嵌入可能会影响模型的计算效率。计算效率的具体度量目前不在本文的讨论范围之内。然而,我们强调,如果一个人在一个可以预先计算COT推理的环境中,COT对计算效率的影响是有限的。而如果必须在推理时计算COT推理,则可能会有明显的推理速度下降,这取决于用于COT推理的LLM的效率。

  • 24
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值