Stance Detection with Collaborative Role-InfusedLLM-Based Agents基于协作性角色注入的llm代理的立场检测 翻译

作者信息

 Xiaochong Lan, Chen Gao, Depeng Jin, Yong Li
Department of Electronic Engineering, BNRist, Tsinghua University, China
lanxc22@mails.tsinghua.edu.cn, {chgao96, jindp, liyong07}@tsinghua.edu.cn

摘要

  立场检测自动检测文本中指向目标的立场,这对于网络和社交媒体研究中的内容分析至关重要。尽管LLMs具有很好的性能,但在直接应用于立场检测时,它会遇到一些挑战。首先,立场检测需要多方面的知识,从解读事件相关的术语到理解社交媒体平台上的表达风格。其次,立场检测需要高级推理来推断作者的隐含观点,因为立场通常是巧妙地嵌入文本,而不是在文本中公开地陈述。为了应对这些挑战,我们设计了一个三阶段框架COLA (Collaborative role - LLM-based Agents的缩写),其中llm被指定为不同的角色,创建了一个协作系统,每个角色都有独特的贡献。最初,在多维文本分析阶段,我们将llm配置为语言专家、领域专家和社交媒体资深人士,以获得文本的多层面分析,从而克服了第一个挑战。接下来,在推理增强辩论阶段,对于每个可能的立场,我们指定一个特定的基于LLM的代理来支持它,引导LLM检测文本特征和立场之间的逻辑连接,处理第二个挑战。最后,在立场结论阶段,最终的决策者代理巩固先前的洞察来确定立场。我们的方法避免了额外的注释数据和模型训练,并且非常有用。我们在多个数据集上实现了最先进的性能。消融研究验证了每个设计角色在处理立场检测方面的有效性。进一步的实验证明了该方法的可解释性和通用性。我们的方法在可用性、准确性、有效性、可解释性和通用性方面表现突出,突出了其价值。

1引言

   立场检测通常定义为自动检测文本生成器对目标的立场(赞成、反对或中立)[30,31,6]。立场检测在网络和社交媒体平台上的大规模文本数据分析中起着关键作用[23,42]。多年来,人们提出了许多用于立场检测的方法[24,3]。然而,一个持久的挑战在于需要为感兴趣的目标专门训练模型。即使随着跨目标立场检测[26]和零距离立场检测的发展[4,25],通常也需要对带注释的语料库进行适当的训练。获取大规模的标签数据集并不是一件简单的事情,这会限制模型的可用性。

  最近,大型语言模型(LLMs)在各种应用程序中表现出了卓越的能力[10,34,2]。这些大型模型固有的语义理解为立场检测提供了一个令人兴奋的机会。大多数llm可以很容易地与用户通过零镜头提示进行交互。这极大地增强了模型的可用性。因此,大型语言模型凭借其强大的功能和可用性,可以重塑我们处理立场检测的方式。

  研究人员已经发现了LLMs给立场检测带来的变革潜力。一些研究提出了使用LLMs进行立场检测的简单方法[51,52]。然而,尽管这些工作在特定数据集的特定子集上报告了令人满意的结果,但我们严格的复制表明,与最先进的非llm基线相比,这些方法往往表现不佳。这可以归因于立场检测的两个固有挑战,它们可以被列出如下,并在图1中进一步说明。

  • 首先,立场检测需要多方面的知识。句子可能包含领域特定术语、文化参考、社交媒体语言风格等元素。大型语言模型不能立即理解这些内容,需要专门的解析才能真正理解。
  • 其次,立场检测需要高级推理。通常情况下,作者不会直接陈述他们的立场,而是在不经意间以各种方式揭示他们的立场,比如通过他们对相关主题或事件的态度。立场检测需要从各种文本特征进行推理,以得出正确的立场。

 图1:立场检测的挑战。

  为了解决这些挑战,我们引入了我们的三阶段框架COLA(Collaborative Role-Infused LLM Based Agents的缩写)。 我们设计了一个由角色注入的基于LLM的代理组成的立场检测系统,每个角色承担不同的职责和意义。 为了应对第一个挑战,我们启动了一个多维文本分析阶段。 在这一阶段,LLMS被指定为三个角色,分别是语言专家、领域专家和社交媒体老手,从不同的角度分析文本。 当语言学专家深入研究句法、措辞和时态时,领域专家则阐释字符、事件和其他文本元素。 更重要的是,社交媒体老手解码平台特定的术语和表达风格。 他们的综合见解有助于挖掘文本中的立场指标。 针对第二个挑战,我们提出了一个推理增强的辩论阶段。 在这里,我们为每个潜在的立场类别指定倡导者。 从前一阶段的证据中,这些倡导者提出论据来支持他们各自的立场,迫使LLMS识别连接文本特征和实际立场的潜在逻辑。 最后,立场结论阶段决定了文本的立场,从文本本身和辩论中得出见解。

  我们的方法不需要注释数据,也不需要额外的模型训练,因此确保了高可用性。大量的实验验证了我们的方法优于现有基线的性能,确认了其准确性。一个具有代表性的结果是,与SEM16数据集的CC目标上的Favg度量上的最佳目标内标记数据依赖基线相比,我们的零样本框架实现了21.7%的绝对改进。消融研究阐明了每个模块处理立场检测的有效性。案例研究和定量实验证实了我们的方法的可解释性。我们提出的框架在一系列文本分类任务中的强大性能突出了它的通用性。我们的方法因其可用性、准确性、有效性、可解释性和通用性而脱颖而出,所有这些都突出了它的价值。

我们的主要贡献总结如下:

  • 我们是第一批深入研究利用llm来加强立场检测的机构之一。
  • 我们引入了一种基于协作性角色注入的llm授权代理的方法,该方法在立场检测方面表现出了出色的性能,并实现了高可用性和可解释性。
  • 我们提出的三个阶段框架——分析者、辩论者和摘要器——为一系列文本分类任务提供了巨大的潜力,为web和社交媒体上的文本分析提供了一个强大的工具。

  接下来的部分组织如下。我们首先回顾相关的工作。文中详细描述了我们的三阶段框架。然后,我们提出了我们的实验,提供了强有力的经验证据,从多个角度证明了我们的方法的优越性。最后,我们总结了我们的工作,并强调了未来需要改进的潜在领域。

2相关工作

  本节的结构如下:首先,我们提供了立场检测方面进展的详细概述。接下来,我们将介绍大型语言模型的最新进展。最后,我们将重点回顾与我们的工作密切相关的一个子集,特别是基于llm的多代理系统。

  立场检测。立场检测旨在从文本内容中识别作者对特定目标的立场。通常,立场分为赞成、反对和中立。研究人员提出了大量的立场检测算法,包括基于特征的方法[1,9,29]和深度学习技术[21,47,28]。这些方法能够对互联网和社交媒体平台上的内容进行深入分析。例如,Jang等人[23]开发了一种方法,通过生成tweet的立场感知摘要来发现社交媒体上的争议。Grcar et al. b[20]研究了脱欧公投前Twitter的立场,揭示了支持脱欧阵营的影响力更高。

  传统上,立场检测需要在针对特定目标的标注数据集上进行训练。这样的数据集不容易获得,从而限制了许多方法的可用性。认识到这一局限性,研究人员冒险进行了跨目标立场检测,旨在训练在已知目标上训练后可以适应不熟悉但相关目标的分类器[49,46,26]。最近,出现了零样本立场检测方法,可以自动检测未见任务中的立场[4,25]。然而,所有这些方法都需要在带注释的数据集上进行训练。与这些方法不同,我们的方法使用预训练的LLM,不需要额外的注释数据。通过快速的工程设计,我们在没有额外培训的情况下完善了这些模型,提供了一个高可用性的解决方案。

  大型语言模型。大型语言模型(llm)是近年来人工智能领域最重要的进展之一。随着ChatGPT2在2022年底的发布,法学硕士的关注度迅速上升,主要是由于其出色的表现。大量的llm,如GPT-4[33]、Llama 2[41]、ChatGLM[50]等,已经被快速引入。在传统的NLP任务中,这些llm的零样本能力通常可以与精心制作的领域特定模型相媲美甚至超越。诸如llm中的规划和推理等强大功能的出现,进一步使它们能够在不同的应用程序中被采用。一些努力将法学硕士与现有工具整合在一起[37,38],另一些则探索法学硕士创造新工具的潜力[b[11]],并且越来越多的趋势是利用法学硕士进行动态决策、规划和具体智能[2,39,48]。     

  llm的丰富知识和强大的语义理解为解决立场检测任务提供了巨大的潜力。一些研究项目确实探索了llm在立场检测中的应用[51,54,52]。然而,这些现有的方法往往采用相对直接的方法,忽略了立场检测的内在挑战。因此,我们严格的复制工作经常发现,与训练相关的基线相比,它们的性能低于标准。相比之下,我们的方法专门针对立场检测通常需要的专家知识和复杂的推理进行了定制,因此取得了值得称赞的结果。   

  图2:我们建议的COLA的体系结构。在多维文本分析阶段,语言学专家、领域专家和社交媒体老手从不同的角度对网络或社交媒体上的文本进行分析,提供一个整体的理解。在推理增强的辩论阶段,对于每一个可能的立场,辩论者都为它辩护,在文本特征和立场之间寻找可能的逻辑链。最后,在立场结论阶段,最终裁判根据所有辩手的陈述决定立场。

  3.2.2方法:基于多llm的代理系统。由多个基于LLM的代理组成的系统已经展示了复杂而强大的功能,这些功能不是单个LLM所固有的。利用LLM的类人能力,由多个基于LLM的代理组成的系统已应用于在线和离线社会模拟,展示了个人层面和紧急社会行为的可信度。例如,Part et al.[34]构建了一个拥有25个代理的AI城镇,见证了市长选举和政党组织等现象。Gao等人用数千个基于法学硕士的代理对在线社交网络进行了模拟,观察了反映现实世界趋势的群体情绪反应和意见转变。此外,一些研究采用不同角色的法学硕士之间的协作来完成任务。在METAGPT[22]中,基于llm的不同角色的agent协同开发计算机软件,而DERA[32]则利用各个agent之间的讨论来完善医疗总结对话和护理计划生成。此外,一些研究利用了大型语言模型代理之间的争论来提高模型性能。例如,ChatEval[12]通过多代理辩论提高了文本评估能力。Du等人通过促进大型语言模型之间的辩论,放大了它们的事实性和推理能力。

据我们所知,我们的工作是在立场检测任务中使用基于多个llm的代理系统的开创性努力。

3方法

在本节中,我们将详细描述我们提出的COLA。COLA的体系结构如图2所示。

3.1任务说明

在立场检测中,目标是确定给定的文档相对于指定目标的立场。我们定义一个数据集D = {(xi = (di, ti), yi)}n i=1,包含n个实例。对于每个实例,xi表示包含文档di和相应目标ti的元组。任务是检测立场yi,它可以是以下类别之一:赞成,反对或中立。

3.2多维文本分析阶段

3.2.1挑战:

  立场检测需要深入掌握多方面的知识。社交媒体上表达作者立场的句子可能会受到各种语言现象的影响,如语法结构、时态和语气。通常还存在大量特定于领域的术语,包括对角色、政党和事件的引用,以及它们与目标的关系。此外,社交媒体的独特语言功能,如标签,也开始发挥作用。尽管大型语言模型已经从训练数据中吸收了大量的知识,但它们在立场检测中的直接应用往往不能充分利用这些知识,导致次优结果,我们随后的实验证实了这一事实。

3.2.2方法:

为了应对这一挑战并利用大型语言模型中编码的丰富知识,我们设计了一个多维文本分析阶段。在这个阶段,我们引入了三种不同的基于llm的代理,从不同的角度解析文本,确保全面理解影响作者立场的潜在因素。这些代理分别是语言专家、领域专家和社交媒体老手。我们通过提示让LLM以角色的方式行事。具体来说,角色注入agent在这一阶段的输入和输出如下:

输入:具有立场的文本。

输出:语言专家、领域专家和社交媒体老手对文本的个人分析。

代理详细配置如下。

语言学专家。该代理人的任务是从语言学的角度剖析文本,探索的因素包括但不限于:

语法结构。词在句子中的排列和关系,它决定了不同的元素如何组合在一起产生特定的意思。

时态和词形变化。时态确定动作发生的时间,影响立场的即时性或距离。屈折变化调整词形,为句子的语法和关系上下文提供线索。

修辞手法。这些都是用来增强语言表现力的技巧。通过强调、对比或唤起情感,它们塑造了陈述的语气和态度。

词汇选择。在写作中对特定单词或短语的选择,可以揭示更深层次的细微差别、偏见或对某个主题的观点。

领域专家。该代理专注于领域相关知识,探索以下方面:

角色。文本中的关键人物或实体。

事件。文本中出现的重要事件。他们的描绘方式可以暗示作者对某些问题或话题的立场。

组织。已建立的团体提到。他们的描述可以展示作者对某些社会结构或制度的感受。

派对。具有不同意识形态的政治团体。一篇文章对这些问题的处理可以提供对作者政治倾向或批评的见解。

宗教。特定的信仰或精神信仰。它们被引用的方式可能会揭示作者的个人信仰或社会观察。

社交媒体老手。该代理深入研究了社交媒体表达的细微差别,重点关注以下方面:

标签。在社交媒体平台上使用的特定标签,有助于对帖子进行分类或强调特定主题,使内容易于发现。

网络俚语和口语。这些是指在网络社区中经常使用的非正式术语和表达。它们的使用可以引入细微差别、文化背景或特定的态度,使它们成为陈述中潜在立场的重要指标。

情绪化的语气。这抓住了一篇文章中固有的情感,揭示了作者对特定主题的情感,无论是积极的,消极的还是中立的。

3.3推理-强化辩论阶段

3.3.1挑战:

  立场检测的任务需要复杂的推理。作者通常不会在文章中明确地陈述他们的立场。相反,他们的立场可能是通过他们对某些实体的情感或通过比较和对比等机制来暗示的。识别这些隐含的立场需要详细的推理。虽然大规模语言模型具有一定的推理能力,但在复杂的推理任务中,如果没有适当的引导,其性能可能会不理想,从而影响立场检测结果的质量。

3.3.2方法:

  最近的一些研究利用大型模型之间的讨论或辩论来提高它们的性能[18,12,27],特别是在推理任务中,我们从这些研究中得到灵感,引入了一个推理增强辩论阶段。在这个阶段,为每个潜在的立场指定一个代理。该代理人从文本的专家分析中寻求证据,并主张其指定的立场。具体来说,agent在这一阶段的输入和输出如下:

输入:具有立场的文本。语言专家、领域专家和社交媒体老手对文本的分析。

输出:每个代理对其支持的立场的辩论,包括其选择的证据及其逻辑链。

  在我们的框架中,我们只进行了一轮辩论,为未来的探索保留了多轮辩论。指示代理人寻找证据并捍卫他们一致的立场迫使大型语言模型在可识别的文本特征(以及它们的多方面解释)和文本的实际潜在立场之间建立逻辑联系。通过让多个主体支持不同立场的辩论,该系统鼓励了大模型的发散思维。这产生了大量潜在的文本立场解释,确保系统产生可能正确的解释的可能性更高。这些输出随后进入立场结论阶段,得出最终的、明智的判断。

3.4立场结论阶段

为了从不同的主体辩论中推断出一个结论性的立场,我们引入了立场结论阶段。在这一阶段,判断代理根据文本本身和辩论代理提出的论点确定文本的最终立场。这个过程被描述为:

输入:具有嵌入式立场的文本。每个主体的论证,包括证据和逻辑推理。

输出:文本的确定立场。

裁判代理评估文本的内在品质,辩手提供的证据,以及他们的逻辑框架,以达成明智的决定。

在经历了上面提到的三个阶段之后,我们已经有效地从文本中提取了对给定目标的潜在立场。

4实验设置

在本节中,我们将描述实验的具体设置。

4.1数据集

我们在三个不同的数据集上进行实验:

Sem16[30]。该数据集具有来自不同领域的六个特定目标,即唐纳德·特朗普(DT),希拉里·克林顿(HC),女权运动(FM),堕胎合法化(LA),无神论(A)和气候变化是真正的关注(CC)。每个实例被分为三种立场类别之一:赞成、反对或无。

Wt-wt[15]。该数据集专门用于公司之间的并购讨论,包括四个目标:CVS_AET (CA), CI_ESRX (CE), ANTM_CI (AC)和AET_HUM (AH)。立场标签包括支持、反驳、评论(中立)或无关。

Vast[4]。这个数据集的特点是它有大量不同的目标。VAST中的实例包括一个句子、一个目标和一个立场,可以是赞成、反对或中立。

我们使用的数据集的统计数据如表1所示。由于我们方法的零样本性质,我们没有将数据集分成训练集、开发集和测试集,而是在整个数据集上进行实验。对于零样本立场检测方法,我们评估了它们在所有三个数据集上的性能。然而,对于目标内立场检测方法,我们评估了它们在SEM16和WT-WT上的性能,因为VAST数据集中的目标主要是少射或零样本。这些数据集不包含个人身份信息,但可能包含冒犯性内容,因为文本对宗教、政治、气候等主题有明确的立场。在使用本文中提到的所有数据集时,我们严格遵守各自许可证的要求。

4.2实验实施 

4.2.1 COLA的实现

  在我们的研究中,我们采用OpenAI提供的GPT-3.5 Turbo模型作为我们的主干。我们选择GPT-3.5 Turbo主要是因为它卓越的性能,成本效益,以及通过OpenAI API提供的易于交互。这些属性不仅促进了高效的研究,而且确保了我们的方法在未来应用中的可用性。通过利用OpenAI API提供的系统指令特性,我们指导模型充当各种代理角色,通过提示输入文本并从模型收集文本输出。为了使重现性最大化,我们将温度参数设置为0。报告的结果是5次重复运行的平均值,以确保统计可靠性。

4.2.2评价指标

  对于SEM16数据集,遵循Allaway等人的观点,我们计算Favg,它表示赞成和反对的F1分数的平均值。对于WT-WT数据集,我们遵循Conforti et al.[15]设置的指导方针,并计算每个目标的Macro-F1分数。对于VAST数据集,我们采用Allaway等人的方法,计算Pro、Con的F1分数和Macro-F1分数来评估模型的性能。

4.3对比方法

  我们比较了COLA和最先进的(SOTA)方法在立场检测。我们比较了零样本立场检测和目标内立场检测两种任务的方法。

  我们将该方法与各种零样本立场检测方法进行了比较。这包括对抗性学习方法:TOAD[5],对比学习方法:PT-HCL[25],基于bert的技术:TGA-Net[25]和Bert-GCN[28]。我们还包括两个基于大型语言模型的基线:GPT-3.5 Turbo和GPT-3.5 Turbo+思维链(COT),两者都可以被认为是零射击,分别严格按照Zhang et al.[51]和Zhang et al.[52]实现。

  为了进一步验证我们模型的性能,我们将我们的模型与目标内立场检测方法进行了比较。这些方法在给定目标的数据集上进行广泛的训练,然后在同一目标的测试集上进行评估。相比之下,我们的方法仍然严格保持零样本,没有对我们的骨干模型进行微调。我们将我们的方法与各种目标内立场检测基线进行了比较,包括基于rnn的方法:BiCond[8]和at - lstm [44];基于注意的方法:CrossNet [49];基于BERT的方法:BERT [17];基于图的方法:ASGCN[53]和TPDG[26]。

  对于非llm方法,我们从现有文献中检索结果进行全面比较[15,4,5,28,26,25]。

5实验结果

在本节中,我们旨在借助实验结果回答以下研究问题(RQs):

RQ1:与最先进的立场检测模型相比,COLA的性能如何?(准确性)

RQ2:我们模型中的每个组成部分是否都有效并有助于提高绩效?(有效性)

RQ3:我们的模型能否解释其立场决定背后的基本原理和逻辑?(可解释性)

RQ4:我们的框架是否适用于与网络和社交媒体内容分析相关的其他文本分类任务?(多功能性)

5.1整体性能(RQ1)

  在表2中,我们将COLA在三个数据集上的零样本立场检测性能与基线方法进行了比较。此外,表3展示了我们的零样本COLA和目标内标记数据依赖于SEM16和WT-WT数据集的基线的结果,用于目标内立场检测任务。总体结果证明了我们的方法的强大性能。具体来说,主要调查结果列举如下。

表2:零样本立场检测任务的COLA与基线的比较。最好的分数用粗体表示。*表示COLA改善了最佳基线,经配对t检验,p < 0.05。 

表3:目标内立场检测任务的零样本COLA与完全经过标记数据训练的基线的比较。最好的分数用粗体表示。*表示COLA改善了最佳基线,经配对t检验,p < 0.05。

  • 我们的方法在大多数指标上优于最先进的零样本立场检测方法。在三个数据集的大多数指标上,我们的模型显示了在最佳基线上的统计显着改进。对于SEM16数据集中的CC和LA目标,我们的方法在最佳基线上取得了可观的收益,Favg的绝对增幅分别为15.7%和25.1%。在WT-WT数据集中,我们的方法在除AH之外的所有目标的最佳基线上实现了显著的改进。在包含数万个实例的VAST数据集中,我们的模型在总体宏观f1得分中获得了1.8%的显著绝对提升。这证明了我们的方法具有强大的零样本立场检测能力。
  • 我们的方法的零样本立场检测性能与最先进的目标内立场检测技术密切相关,即使它们在相应的目标上进行了充分的训练。在SEM16数据集上,我们的方法在DT和CC目标上显著优于最佳基线TPDG,同时在其他目标上保持相当的性能。在WT-WT数据集中,我们的方法在所有目标上始终匹配TPDG的性能。值得注意的是,尽管这些比较方法已经在各自的目标上进行了广泛的训练,但我们的方法仍然保持了相当或更好的性能,强调了我们方法的强大性能。
  • 直接应用大型语言模型可能会产生较差的性能,特别是在抽象概念目标上。在SEM16数据集中,对于目标A(无神论)和CC(气候变化是一个真正的问题),GPT-3.5分别仅实现了8.1%和24.7%的Favg。即使使用增强的GPT-3.5+COT,得分也仅为10.3%和25.2%。在几乎所有的数据集和度量中,简单部署大型语言模型的性能明显落后于我们提出的方法。这强调了直接使用大型语言模型进行立场检测任务的局限性,特别是在处理针对抽象概念目标的姿态时,突出了我们设计的必要性和有效性。

5.2消融实验(RQ2) 

  为了研究我们设计中每个模块的影响,我们进行了消融研究,以评估每个模块被移除时框架的性能。结果如表4所示,它证明了框架中的每个模块都有助于提高性能。在下面,我们提供了对结果的详细描述。

5.2.1多维文本分析阶段研究。

  在多维文本分析阶段,来自不同领域的三个专家代理同时对文本进行分析。我们单独删除了这些专家,以评估我们的方法的性能。我们还评估了排除所有专家分析后的绩效。结果表明,去除任何专家代理都会导致一定程度的性能下降。此外,消除整个多维文本分析阶段会导致性能显著下降。在A(无神论)目标中观察到最明显的性能下降。删除语言专家、领域专家和社交媒体资深人士后,得票率分别降至46.0%、42.4%和54.6%。更重要的是,如果没有多维文本分析阶段,Favg仅下降到23.3%。这可以归因于无神论主题在宗教和社会等各个领域的复杂性。这些发现强调了我们多维文本分析阶段和其中每个代理设计的有效性。

5.2.2推理增强辩论阶段研究。

  在推理增强辩论阶段,我们在具有不同观点的智能体之间引入辩论,以增强我们基于LLM系统的推理能力。我们去掉了这个阶段,让判断智能体直接从专家智能体的文本分析中推断出文本的立场,目的是验证辩论设计的有效性。在移除辩论阶段后,我们的方法的性能明显下降。抽象概念目标A(无神论)、CC(气候变化是真正的关注)和LA(堕胎合法化)的下降最为显著,绝对Favg分别下降了35.7%、14.9%和10.6%。这表明,推理增强的辩论阶段提供了实质性的好处,特别是在处理相对抽象的目标时。结果验证了推理增强辩论舞台设计的有效性。

5.3可解释性研究(RQ3)

可解释的人工智能(XAI)是指能够提供清晰的见解或理由,使其决策易于理解的人工智能。通过阐明其决策过程,XAI增加了透明度并增强了模型的可信度。大型语言模型天生具有解释其输出的能力。通过提示他们决定背后的基本原理,我们可以直接获得他们决定的解释。为了更深入地研究我们方法的可解释性,我们进行了案例研究和定量实验,以验证其产生清晰合理解释的能力。

在立场结论阶段,我们要求判断器代理以JSON格式提供输出,该格式由两个组件组成:立场和不超过100个令牌的简明解释。我们在SEM16数据集上进行实验。在仔细检查生成的输出后,我们发现我们的模型可以为其决策提供清晰的解释。在图3中,我们展示了两个案例来进行说明。

 图3:由我们的方法生成的解释案例。

 在第一个案件中,推特上写道:“@Scotus的裁决是@EPA和环境的重大挫折。#脏煤#同意气候变化是一个真正的问题。我们的模型检测到这种立场。在其生成的解释中,该模型识别出了提到EPA和使用#脏煤标签,表明了对环境的关注。此外,该模型感知到沮丧的情绪基调,进一步反映了亲环境的观点。

在第二种情况下,推文“@GovtsTheProblem这就是我看到的:给我们的女王农民让路!”不要碰她,也不要和她说话!#NoHillary2016 #班加西”描绘了一个反对希拉里的立场。我们的模型从语言学的角度(使用贬义语言)、领域专家的角度(在负面语境中提到班加西事件)和社交媒体的角度(#NoHillary2016标签)合理地解释了它的判断。这些案例验证了该模型在生成清晰合理的解释方面的熟练程度。

为了进一步验证我们的模型产生清晰和合乎逻辑的解释的能力,我们进行了定量实验。对于SEM16数据集,我们收集与COLA生成的每个实例的立场相关的解释(来自JSON输出的第二部分)。这些解释,连同原文,被输入到GPT-3.5 Turbo模型。我们告诉模型,这些解释可以作为其决策的参考。结果,我们从模型中得到了一组新的判断。很明显,除了原始文本之外,通过合并COLA生成的解释,GPT-3.5 Turbo的性能显著提高,如表5所示。a(无神论)和CC(气候变化是真正值得关注的问题)的目标明显增加,Favg分别提高了51.6分和29.3分。对于HC(希拉里·克林顿)和FM(女权运动)的目标,结果甚至超过了COLA。这进一步证实了我们的模型在生成清晰和逻辑解释方面的强大能力。

表5:GPT-3.5 Turbo、COLA和GPT-3.5 Turbo的性能以及COLA生成的解释。最好的分数用粗体表示。

5.4 Study on Versatility (RQ4)

  我们提出的COLA可以概括为一个分析者-辩论者-总结者框架。在本节中,我们进行实验来验证分析者-辩论者-总结者框架可以应用于网络和社交媒体上的文本分析的其他文本分类任务,而不仅仅是作为立场检测的临时方法。我们对另外两个文本分类任务进行了实验:基于方面的情感分析和说服预测。我们选择基于方面的情感分析,因为它需要精确理解与文本中特定元素相关的情感,反映了我们框架的详细分析能力。同时,选择说服预测是因为它强调检测潜在的意图,突出了COLA熟练处理网络和社交媒体交流中常见的复杂会话动态的能力。

  基于方面的情感分析是确定对文本[36]中提到的每个方面表达的情感极性(积极、消极或中性)。在本任务中,我们修改了原始框架中的辩论者组件,以进行情感辩论而不是立场辩论,同时保持其他设计不变。我们在SemEval14[36]的Restaurant14和Laptop14数据集以及SemEval15[36]的Restaurant15数据集上评估了我们的方法的性能。我们遵循Chen et al.[14]并使用Accuracy和Macro-F1分数作为评估指标。我们将我们的方法与需要训练的最先进的模型进行比较,即DGEDT[40]和dotGCN[13]。

  实验结果见表6。可以观察到,我们的零样本方法的性能与依赖标记数据的最佳基线模型相当。在Restaurant15数据集上,我们的方法甚至优于上面的基线。另一个重要的发现是,我们的方法始终优于直接应用GPT-3.5 Turbo,同时保持易用性。

表6:我们的框架和基于方面的情感分析基线的性能。最好的分数用粗体表示。 

  根据Ziems等人的观点,我们将说服预测定义为在对话结束后确定对话中的一方是否被说服。在本任务中,我们将原来框架中的三位专家替换为两位专家:一位领域专家和一位心理学家。他们对对话话题中的各种概念和名词进行了详细的分析,并分析了所涉及的个体的心理变化。辩论者被修改为辩论参与者是否被说服。我们使用Wang等人提供的数据集,并遵循他们的评估指标,使用Accuracy和Macro-F1。 

  我们将我们的方法与Hybrid RCNN[43]和GPT-3.5 Turbo进行了比较,结果见表7。实验结果表明,我们的方法取得了比基线更好的性能,并且比GPT-3.5 Turbo有了显著的改进。

表7:我们的框架和基线在说服预测上的表现。最好的分数用粗体表示。

  分析者-辩论家-总结者框架已被证明在基于方面的情感分析和说服分类任务中都非常成功。在一系列任务中,我们的零样本框架与依赖于训练数据的最先进的基线相当,并且明显优于直接应用GPT-3.5 Turbo。这些实验证明了我们方法的多功能性。

5.5讨论

  在上述实验中,我们在各个维度上广泛地评估了我们的方法的性能。从我们方法的设计原理来看,消融研究证实了我们方法中的每个组件都有助于提高性能,这表明设计没有冗余,可以被认为是有效的。与现有方法相比,实验证据表明,我们的方法在立场检测方面优于所有其他零样本方法。此外,其性能与依赖于目标内标记数据的目标内立场检测方法相当,表现出令人印象深刻的准确性。此外,对于与网络和社交媒体内容分析相关的另外两个文本分类任务,我们的方法实现了与最先进的基线相当的结果,强调了它的通用性。从实际应用的角度来看,我们的方法不需要对模型进行额外的训练。相反,它可以通过api或其他方式与现有的大型语言模型进行交互来实现,从而展示其强大的可用性。实验也证明了我们的框架可以为其决策提供清晰合理的解释,保证了高度的可解释性。这种生成的解释可以增强用户对我们方法的信任,并有助于进一步分析。鉴于这些优点,我们的方法有望得到广泛的应用。

6结论与未来工作

  在这项工作中,我们利用llm的强大功能进行高级立场检测。我们提出COLA,即多个基于llm的代理协作得出结论。该方法包括三个阶段:多维文本分析阶段、推理强化辩论阶段和立场结论阶段。实验结果表明,该方法具有较高的准确性、有效性、可解释性和通用性,具有较强的适用性。

  我们的方法并非没有局限性。由于缺乏大型语言模型的实时训练数据,分析实时主题的性能可能会受到一定影响。在未来的工作中,我们打算将实时更新知识库整合到文本分析阶段,以增强我们的框架分析包含当前事件的文本的能力。此外,在解决网络和社交媒体上广泛的文本分析任务方面,探索其实施仍有巨大的潜力。

  • 22
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值