LADDER-OF-THOUGHT: USING KNOWLEDGE AS STEPS TO ELEVATE STANCEDETECTION 全文翻译

本文介绍了一种名为LoT的方法,通过双阶段优化框架帮助小型语言模型吸收高质量外部知识,生成更可靠的中间原理,从而在立场检测任务中超越大模型,如GPT-3.5。LoT实证结果显示在VAST数据集上的显著性能提升,特别是在与ChatGPT的比较中。
摘要由CSDN通过智能技术生成

摘要

立场检测旨在识别文档中对给定目标所表达的态度。诸如思维链(CoT)提示之类的技术推进了这项任务,通过推导中间基本原理来增强模型的推理能力。然而,在推理过程中,CoT主要依赖于模型预先训练的内部知识,从而忽略了模型先前未知的有价值的外部信息。这种遗漏,特别是在无监督推理过程中,会影响模型的整体性能。此外,虽然CoT增强了大型语言模型(Large Language Models, llm),但较小的llm虽然在操作上很有效,但在交付细微的推理方面面临挑战。为了应对这些已确定的差距,我们为立场检测任务引入了思想阶梯(LoT)。通过双阶段渐进式优化框架构建,LoT指导小型lm吸收高质量的外部知识,提炼产生的中间基本原理。这些得到支持的基本原理随后成为更精确预测的基础——类似于梯子如何促进实现更高的目标。LoT实现了效率和性能之间的平衡。我们的实证评估强调了LoT的有效性,在立场检测任务上,与GPT-3.5相比,LoT提高了16%,与GPT-3.5加CoT相比,LoT提高了10%。

关键字:        立场检测,思维阶梯,语言模型,知识灌输

1引言

立场检测是在提供的文档中识别针对特定目标的立场的任务。考虑到主题的广度和做出准确预测所需的推理深度,这项任务可能具有挑战性。然而,随着预训练语言模型(PLMs)的成功,立场检测的前景已经发生了重大变化。这些plm,当对下游任务进行微调时,表现出显著的性能改进[1,2]。

利用LMs的功能,基于提示符的技术进一步提高了性能,特别是当GPT-3.5等大语言模型配备了精心设计的[3]提示符时。思维链(Chain-of-Thought, CoT)提示是一种突出的提示策略,它使LMs能够产生连贯和系统的推理理由,从而提高后续预测的准确性。然而,CoT有一个明显的局限性:在生成这些基本原理时,它主要依赖于模型的内部、预先存在的知识。外部知识通常是动态的、不断发展的,并且在特定领域的见解中丰富,这些知识仍然未被利用。由于CoT依赖于模型的预训练知识,其无监督的中间推理过程不可避免地会产生不太可靠的基本原理,从而影响模型的整体性能[5,6,7,8]。

外部背景知识的整合对于优化模型的立场检测能力至关重要。在缺乏这些辅助信息的情况下,预测可能会受到损害,特别是在受模型固有知识限制的情况下。表1证明了这一点:尽管ChatGPT使用了CoT[3],但在补充了来自Wikipedia[9]的外部知识后,像BERT这样的较小模型在立场检测任务中可以优于它。

此外,像GPT3.5这样的大语言模型的扩展架构带来了对效率的担忧。另一方面,较小的lm虽然操作效率更高,但由于其紧凑性,往往会损害推理能力[4,7]。虽然CoT在大语言模型中提供了性能提升,但它并不能有效地使较小的模型受益。这强调了在不膨胀较小模型尺寸的情况下增强其推理能力的必要性。

为了应对这些挑战,我们提出了思想阶梯(LoT),这是一种利用外部知识作为提升立场检测的步骤的新方法。LoT在渐进优化框架上运行。LoT中的“阶梯”代表这个渐进优化过程。初始阶段吸收外部信息,引导模型生成更可靠的中间知识作为理论基础。这些中间知识作为“步骤”,逐步提升模型的综合理解能力,最终实现鲁棒的立场检测。LoT专为小型lm量身定制,在效率和性能之间取得了和谐的平衡。它促进了丰富的外部知识的无缝整合,培养了深刻的推理能力。LoT的架构如图1所示。

我们的主要贡献总结如下:

  • 我们引入了LoT -一种新的立场检测方法。通过用外部知识丰富较小的LMs, LoT有效地促进了更可靠的中间基本原理的生成,从而提高了预测性能。
  • 我们证明LoT优于现有方法,在保持效率的同时获得最先进的结果。

 2. 方法论

2.1. 任务定义

立场检测:立场检测包括识别与特定目标有关的自以为是的文件的立场。形式上,考虑一个集合D = {(xi = (di, ti), yi)},其中i=1表示n个实例。这里,xi封装了一个文档di和一个目标ti。任务是推断立场标签yi,它可以被分类为{积极的,消极的,中性的}。

2.2. 外部知识检索

为了提高LoT中生成的中间基本原理的可靠性,我们整合了外部知识,以监督的方式增强了生成。具体来说,web检索过程从谷歌搜索中获取每个目标ti的相关外部信息。通过超越维基百科的传统领域,深入到更广阔的网络,我们获得了大量多样化和动态的信息[10]。这种转变与探索超越基于维基百科的研究边界的新兴趋势相一致[11,12,10]。

2.3. 思想阶梯(LoT)架构

思维阶梯(LoT)架构增强了立场检测,使较小的模型能够更有效地进行推理。LoT将其比喻为梯子的构建,其中渐进优化的过程形成了梯子的框架,而可靠的中间知识,加上外部洞察力的强化,是不可或缺的“台阶”。这些关键步骤使模型能够达到更高的洞察力和更深的理解,促进更准确的预测。LoT是通过两阶段渐进优化框架开发的:

  1. 阶段1 -生成微调:在这个基础阶段,使用检索到的知识对预训练模型M0进行微调。这将外部洞察转移到模型中,引导它生成更健壮的中间知识,从而帮助下游立场预测。由此得到的模型M1便于生成更丰富和可靠的中间基本原理,记为k -中间基本原理i。
  2. 第二阶段-预测微调:第二阶段利用第一阶段生成的增强知识来专业地识别立场标签。通过将文档、目标和生成的知识连接起来,我们构建了一个增强的输入表示(xenhanced i)。然后用这个增强的输入对M1进行微调,最终得到模型M2。在知识输入的情况下,M2可以进行立场预测yi。推理能力

 思想阶梯(LoT)架构采用渐进式优化框架逐步增强立场检测模型。利用认知进化的概念,LoT为模型训练提供了一种新的范式。特别地,第一阶段是lot的基础,向模型注入核心知识,让人想起为学生提供基础理论。在第二阶段,这个基本原理被用来指导模型进行更细致的立场检测。通过M1从M0到M2的优化体现了LoT的理念:通过刻意优化来发展模型能力,在计算效率和推理深度之间取得平衡。

有关渐进优化的详细步骤,请参阅算法1。

3. 实验

3.1. 数据集与评价指标 

变立场主题(VAST)[13]是一个经典的零样本和少射击立场检测数据集。它包含了广泛的主题:4003个用于培训,383个用于开发,600个用于测试。与其他用于立场检测的数据集(如P-stance[14]只有2个目标或SemEval2016[15]有4个目标)不同,VAST涵盖了跨越各个领域的大量目标。根据前人的研究[13,9],我们采用F1-score的宏观平均值作为评价指标。

3.2. 基线和模型

我们采用FLAN-T5- large, FLAN-T5的780M参数版本作为我们的骨干。我们将我们的模型与以下基线进行比较:TGA-Net [13], BERT, BERT- gcn [16], CKE-Net [2], WS-BERT-Single [9], DQA [3], StSQA[3]。前五种方法是基于BERT及其变体的。DQA基于ChatGPT,具有直接输入输出(IO)提示,而StSQA在ChatGPT上使用CoT,以一步一步的方式提示ChatGPT。

3.3. 结果

我们的模型和基线的总体结果报告在表2中。

表2。在VAST数据集上的性能比较。

与基线FLAN-T5相比,LoT取得了显著的改善,F1得分为79.2,而FLAN-T5的F1得分为73.6。这凸显了LoT的功效。此外,与基于chatgptdqa(运行在扩展架构上,F1得分为62.3)相比,我们的LoT不仅表现出卓越的性能,而且以更少的参数表现出实际的效率。这种紧凑的模型大小保证了在计算资源受限的现实场景中更好的部署可能性。

与F1得分为68.9的StSQA相比,我们的LoT也优于这种cot增强的ChatGPT方法。该结果表明,尽管CoT放大了内部推理,但我们的LoT可以吸收高质量的外部知识,从而促进更准确的预测。

3.4. 消融研究 

LoT的基本结构建立在双相渐进式优化框架上。由于所有实现都涉及预测微调,我们的重点在于理解LoT的两个特定方面的功效:生成微调和增强的中间知识。我们进行消融研究来评估他们的个体和综合影响。除了基线和完整的LoT实施外,我们还引入了两种中间设置进行全面比较:

CoT:遵循CoT的原则,该配置跳过了Generation Fine-tuning,直接利用预训练的模型产生中间知识并进行后续预测。这提供了对预训练模型直接提示的原始知识对预测性能的影响的见解。

仅阶段1:只关注阶段1的微调,此配置省略了在阶段2微调期间生成的知识的后续集成。目的是评估第一阶段微调的直接影响,并确定它是否增强了模型的内在知识。

表3。LoT的消融研究。

Baseline的F1得分为73.4,表示在没有任何额外增强的情况下的性能。

相比之下,CoT配置略有下降,为73.1。这与我们之前的讨论一致,即小型模型由于其有限的推理能力可能无法从CoT中获益。虽然直接提示中级知识产生了一些基本原理,但它们的质量受到了损害。这些中间输出的无监督性质可能会引入潜在的噪声。因此,引入CoT可能会无意中增加模型的复杂性,使它们无法进行准确的预测。这强调了监督微调阶段对提高知识生成可靠性的重要性。 

Phase1-Only配置的F1得分为74.2,超过了我们的基线。这个分数表明,生成式微调可以有效地增强模型的固有知识库。通过使用外部信息补充模型,即使在预测期间没有显式地利用生成的知识,我们仍然可以看到对基线性能的改进。这强调了丰富模型的基础知识可以内在地增强其立场检测能力。

使用我们的LoT配置,该模型达到了79.2的F1分数,与基线和其他配置相比,显示了显着的性能改进。这一大幅增长强调了我们在LoT中整体渐进式优化框架的好处。

3.5. 渐进式优化中的过拟合

在我们的渐进式优化框架中,过拟合提出了一个显著的挑战。如果模型在一代微调(阶段1)期间经历了过度的训练,它可能会变得过于专门化,导致在随后的预测期间对其性能产生不利影响。在这些阶段之间达到理想的平衡是至关重要的。我们研究了第一阶段的训练周期对第二阶段后续预测精度的影响。结果如图2所示。

图2。第一阶段训练周期对整体预测精度的影响。

研究结果表明,最佳性能是在2个epoch左右实现的,随着epoch数量的增加,随后的性能下降。这个结合点意味着理想的平衡:它促进了高质量中间知识的生成,而不过度依赖阶段1。虽然阶段1的目标是增强模型对阶段2的推理,但重要的是要避免以牺牲阶段2为代价过分强调前一个阶段。我们的研究结果强调了战略平衡的重要性,确保每个阶段互为补充,最终构建一个稳健有效的渐进式优化框架。

4. 结论

在本研究中,我们引入了思维阶梯(LoT)。该方法采用双阶段渐进优化框架,有效地提高了小型LMs的推理能力。LoT使模型能够有效地吸收高质量的外部知识,从而形成更可靠的中间基本原理,从而促进准确的预测。我们的实证评估证明了LoT的有效性,突出了其相对于现有方法的优越性。LoT展示了即使是更小的lm,在正确的引导下,也可以在立场检测方面胜过ChatGPT这样的大语言模型。LoT也适用于其他下游任务,我们的目标是在未来的工作中进一步探索。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值