Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives

三月七꧁ ꧂

于 2024-09-27 22:05:02 发布

阅读量295

点赞数 14

分类专栏：论文合集文章标签：知识图谱自然语言处理人工智能 gpt-3 语言模型 gpt prompt

本文链接：https://blog.csdn.net/weixin_43961909/article/details/142603016

版权

论文合集专栏收录该内容

66 篇文章 0 订阅

订阅专栏

文章目录

题目

重新任务：从能力、技能和知识角度重新审视LLM任务
在这里插入图片描述

论文地址：https://arxiv.org/pdf/2408.06904

摘要

随着大型语言模型(LLM)规模的不断扩大，其增强的性能通常不足以解决特定领域的任务。系统地分析它们的故障并有效地提高它们的性能仍然是重大的挑战。本文介绍了Re-TASK framework，这是一个新的理论模型，它以Bloom的分类法和知识空间理论为指导，从能力、技能和知识的角度重新审视LLM任务。Re-TASK框架提供了一个系统的方法来加深我们对特定领域任务的LLM的理解、评估和增强。它探索了LLM的能力、处理的知识和应用的技能之间的相互作用，阐明了这些要素是如何相互联系并影响任务绩效的。我们对再任务框架的应用揭示了在特定领域任务中的许多失败可以归因于知识不足或技能适应不足。基于这种认识，我们提出了通过有针对性的知识注入和技能调整来提高LLM的结构化策略。具体来说，我们识别与任务相关的关键能力项，并采用精心设计的提示策略来提高任务性能，从而减少大量微调的需要。或者，我们使用特定于功能的指令来微调LLM，进一步验证我们的框架的有效性。实验结果证实了该框架的有效性，展示了LLMs在性能和适用性方面的实质性改进。

引言

随着大型语言模型(LLM)规模的增加，如GPT-4、克劳德和双子系列[1，2，22]，以及它们的开源对等物如LLaMA、Mistral和Qwen系列[23，18，3]，它们在自然语言处理(NLP)任务中的通用能力已经显示出实质性的改进。然而，尽管有这些增强，这些模型经常在特定领域的任务中挣扎。典型的行业反应是使用特定任务指令对这些模型进行微调，使其适合各种下游应用[24，9]。虽然这一过程是必要的，但它经常暴露当前方法中固有的局限性。

特定领域的任务，由于其固有的多样性和复杂性，当模型失败时，经常需要专家根据具体情况进行分析。一种常见的补救策略包括强力方法，这种方法依靠编译大量数据集进行迭代训练来提高性能。然而，这种方法充满了挑战。首先，生成特定于任务的教学数据需要大量的领域专业知识，这既昂贵又耗时。第二，使用指令进行微调通常需要大量的计算资源，这对于许多企业来说不切实际。此外，值得注意的是，由于其封闭性，专有LLM通常无法进行微调。第三，这种方法需要大量的人工分析，不仅劳动强度大，而且效率低。这些挑战突出了对一个更加系统、有效和正式的框架的迫切需要，以分析和增强特定领域任务上的LLM性能。

为了开发这样一个框架，我们从个人能力直接影响其任务表现的观察中获得灵感。这一观察得到了教育和心理学理论的支持，特别是布鲁姆的分类学[6]和知识空间理论(KST) [12]。布鲁姆的分类学详细说明了教育目标是如何通过结构化的教学活动来实现的，每个教学活动都涉及特定的知识和认知过程。KST强调学习项目之间顺序依赖的重要性，创建“学习路径”，指导学习者从基础知识到掌握知识。在LLM的背景下，Skill-it框架[8]同样观察到LLM从训练数据中以自然顺序获得技能。

利用这些见解，我们引入了重新任务框架，这是一个通过能力、技能和知识的视角重新审视LLM任务的模型。该框架假设成功的任务完成依赖于掌握多个能力项目，每个项目都可能影响相关任务的性能。每个能力项都被分解成知识和技能的组成部分。这种由教育理论和认知科学支持的解开，与Yoshua Bengio [4]的见解一致，他阐明了“推理=知识+推理”。他强调，有效的推理需要一个强大的世界知识模型和一个强大的推理机，推理机能够生成与世界模型一致的解决方案。

本吉奥提倡一种长期策略，其中世界模型和推理机同时但分别开发，增强它们的组合功能。这种观点强调了区分知识获取和技能应用在开发人类和人工智能系统认知能力中的重要性。

我们的框架假设，学习管理硕士的培训或微调应该被视为一个双重过程，包括知识的获取和应用。这种观点对于通过直接解决其失败的根本原因来系统地提高LLM的性能是至关重要的。通常，这些失败可归因于两个主要因素:相关知识的缺乏和技能适应性不足。首先，LLM中缺乏特定领域的知识可能源于行业数据的隐私限制，限制了培训期间对专有信息的访问，或者源于数据及时性问题，因为公司的连续数据生成不能立即集成到模型中。第二，LLM可能缺乏必要的熟练程度来有效地应用他们的知识解决复杂的、特定行业的任务。例如，他们可能没有接受多步推理的训练，导致在这些技能至关重要的时候失败。

此外，LLM可能以前没有遇到过某些特定领域的知识。即使这样的知识被整合到提示上下文中(例如，通过检索增强生成[19])，模型对它的处理也可能是次优的，导致任务失败。在某些情况下，即使一个模型拥有所需的知识，对这种知识的不充分训练也会导致适应性差，从而导致任务失败。

为了解决这些问题，我们提出了结构化的策略，通过有针对性的知识注入和技能调整来提高LLM。具体来说，我们识别与特定任务相关联的核心能力项，并增强这些能力以提高任务性能。这个过程既包括注入相关知识，也包括调整相应的技能。我们的方法战略性地避免了传统微调方法固有的限制，传统微调方法通常依赖于特定任务的指令。这些指令不仅需要大量特定领域的专业知识，而且需要大量的人力和时间。

我们使用开源LLM进行了全面的实验，专门用于测试Re-TASK框架在特定领域任务上增强LLM性能的功效。我们的实验采用了提示策略和能力级指令微调。通过相关领域知识的战略性注入和对特定功能项的增强，我们观察到了实质性的改进尽管存在这些挑战，我们的框架通过促进特定领域知识的注入并调整他们的能力以有效地利用这些知识，有效地增强了他们的性能。这些发现突出了重新任务框架在解决逻辑模型面临的关键问题方面的效用，并强调了它在显著提高这些模型在专门任务中的适用性和有效性方面的潜力。

我们的主要贡献总结如下:我们介绍了Re-TASK框架，这是一个新颖的理论模型，利用Bloom的分类学和知识空间理论来重新审视LLM任务。这个框架为理解、评估和增强特定领域任务中的LLM提供了一个系统的方法。我们的研究表明，许多LLM在处理特定领域任务时的失败可归因于知识不足或技能适应不足。这种关键的洞察力有助于诊断性能问题，并指导LLM必要的战略增强。

我们在重新任务框架内提出了两种提高物流管理绩效的战略方法:(1)精心设计的激励策略，包括注入特定领域的知识和提高相应的能力项目；(II)精心设计的微调流水线，其优先考虑能力项目并最小化对大量特定任务指令的需求。我们的实验结果表明，通过战略性地注入相关领域知识和增强特定能力项目，LLM可以实现任务绩效的实质性改进。这种方法提供了一种可扩展的解决方案，以增强跨各种特定领域应用程序的LLM的功能。

重新任务

框架3.1重新任务概述我们首先提出框架中几个关键概念的定义:任务、能力项、知识和技能。然后，我们阐明这些要素如何相互联系，以建立结构化的重新任务框架，如图1(a)所示。这些概念和它们的关系在Bloom的分类法中找到了相似之处，在该分类法中，教育目标——相当于我们框架中的任务——是通过结构化的教学活动系统地实现的，类似于能力项目。每一项教学活动不仅包括获取特定类型的知识，还涉及不同的认知过程，从而发展相关的技能。教育目标或任务的成功完成取决于对各种能力项目的掌握，每个能力项目都是通过这些教学活动开发的。知识空间理论(KST)通过强调学习项目之间的顺序依赖性(类似于我们框架中的能力项目)和建立“学习路径”来加强这种结构化方法。

定义1。(任务)任务Tt被定义为LLM被设计来实现的特定目标，其特征在于从输入x到输出y的映射，由任务指令It和可选的上下文ctx促进。形式上，这种关系表现为Tt(它；ctxx) = y，其中分号表示输入的串联。对于每个任务Tt，一组任务实例{Tt，i|i = 1，.。。，n}可以被编译为特定任务指令数据。该数据集使LLM能够针对任务进行专门的微调。可选的上下文ctx可以用于知识注入技能适应。知识注入可以使用检索增强生成(RAG)方法来实现。在基于提示的方法中，可以通过一系列能力项目演示来促进技能适应，类似于环境学习。

在这里插入图片描述

图1: (a)重组任务框架概述。(b)任务-能力项目依赖性的例子。

定义2。(知识)知识点Kj被定义为包含领域特定知识的文本段，其对于任务的执行是必不可少的。在LLMs的上下文中，知识Kj也可以是编码在模型参数中的隐含知识。根据Bloom的分类法，我们考虑三种类型的领域知识:事实的、概念的和程序的1。每种类型在任务执行中扮演不同的角色，对LLM处理和响应特定任务需求的能力有不同的贡献。

定义3。(技能)技能Sj对应于布鲁姆分类法中的认知过程，通过相关的教学活动发展，包括知识理解、应用、创造等。在LLMs中，知识和技能都来自训练数据，并被编码在模型的权重中。

定义4。(能力项)能力项Cj，对应于布鲁姆分类法中的教学活动概念，是一个特定的练习2，旨在指导LLM将特定的技能Sj应用于相关的知识Kj。形式上，我们将能力项定义为Cj : fθj (xc，Kj ) = yc，其中参数θj对应技能Sj。知识Kj可以是显式文本片段或编码在参数本身中的隐式知识。

成功完成任务Tt需要掌握多项能力{C1，C2，Cc}。这些项目可以被概念化为学习的图表，其中它们之间的依赖关系被清楚地定义。图1(b)说明了这些依赖关系。一项任务通常涉及整体程序知识，其解决方案对应于应用该知识的一个能力项目(即项目0)，其方式类似于一个思维链过程[25]。这种程序性知识被进一步细分为三个步骤，每个步骤都链接到一个特定的概念或程序性知识，涉及不同的能力项:理解概念性知识(项1、2、4)和应用/执行程序性知识(项3)。

领域适应的重新任务我们的框架假设，在将一般LLM应用到特定领域任务中的失败可以归因于两个主要因素:相关领域知识的缺乏和技能适应的不充分。首先，LLM中缺乏特定领域的知识可能是由于专有行业数据的隐私限制或数据及时性问题造成的，因为公司会不断生成数据不能立即集成到模型中。为了解决这个问题，可以通过微调或检索增强生成(RAG)将领域知识注入LLM[19]。

第二，LLM可能缺乏必要的熟练程度来有效地应用他们的知识解决复杂的、特定行业的任务。即使这样的知识被注入到LLM中(例如，通过微调或RAG)，模型对它的处理也可能是次优的，导致任务失败。为了克服这一挑战，我们建议收集任务所依赖的能力项，以指导LLM调整处理领域知识的相关技能。值得注意的是，一个能力项既可以明确地引用知识，也可以隐含地利用已经编码在模型权重中的知识。

能力项目识别为了有效地增强LLM在特定领域任务中的性能，识别关键能力项目是必不可少的。虽然像检索增强生成(RAG)这样的技术可以促进知识记忆，但我们的主要重点在于增强对概念和程序知识的理解和应用。这些能力项目是针对任务性能的特定方面战略性地设计的，并且是成功实现我们的重新任务框架的基础。下面，我们概述了展示这种策略方法的几个示例性能力项目:

基于概念/过程知识的命名实体识别(NER ):这种能力涉及基于概念重要性对文本中的实体或术语进行识别和分类。这使得模型能够区分和理解词汇外观之外的术语的上下文相关性。
基于概念知识对实例进行分类:这涉及到模型根据底层概念对数据实例进行分类的能力。它需要理解定义不同类别的抽象属性，以及将这些区别应用于新的、看不见的实例的能力。
程序知识的执行:这种能力对于需要遵循一组有序步骤或程序的任务至关重要，例如技术故障排除、配方准备或复杂计算。这个能力项目类似于思维链过程。
应用结果的判断:在执行程序步骤后，LLMs必须评估结果以确保它们符合预期标准或确定是否需要调整。这种能力包括基于结果的关键评估和决策。

值得注意的是，识别与任务相关的功能项是一项复杂的任务。对于每个给定的任务，我们手动查明相关的知识点，然后确定有助于任务解决的相应技能。使用场景和优势重新任务框架在几个主要方面提供了显著优势。首先，重新任务框架允许对领域知识和技能适应进行详细检查，从而能够系统地识别任务失败背后的根本原因。这种方法消除了对失败任务的劳动密集型、逐个案例的手动分析和诊断的需要。通过具体地注入缺失的领域知识和增强技能适应性(即，提高能力项目)，该框架显著地提高了任务性能，从而从零敲碎打的方法转移到更加集成的问题解决策略。

其次，重新任务框架引入了一个提示策略，一个“仅提示”的方法，同时实现领域知识的注入和相关技能的调整。该特性不仅节省了与指令微调相关的成本，而且在无法微调专有LLM或者私有域数据不可用于微调大型模型的情况下尤其有益。这种能力代表了相对于以前的技术解决方案的重大进步，有效地解决了该领域的一个关键差距。

最后，在基于指令的微调可行的环境中，重新任务框架引入了一个微调管道，该管道对功能项进行优先级排序，并最大限度地减少对大量特定于任务的指令的需求。该流程首先确定与以下内容相关的关键功能项目任务和创建能力级指令。然后，它将重点放在增强这些功能项目上，以提高相关任务的性能。能力级指令通常比特定任务指令简单得多，从而降低了对领域专业知识的要求。此外，利用能力项大大减少了对大量特定于任务的指令的需求。这种简化的方法不仅提高了效率，还在不同的应用环境中培养了更加健壮和适应性更强的LLM性能。

此外，该框架承认LLMs经常表现出的幻觉可以归因于知识不足和技能适应不足。虽然我们目前的工作重点是通过“仅提示”或微调方法提高LLM性能，但我们认识到诊断和减轻幻觉对未来研究的重要性。通过这些举措，重新任务框架不仅提高了LLM在特定领域任务中的性能，而且有助于更广泛地理解和开发更可靠和有效的人工智能系统。

实验

一个领域特定任务的成功完成依赖于对多个能力项的掌握；通过调整相关技能以适应目标知识来增强这些项目，任务绩效可以显著提高。为了验证这一点，我们选择法律领域作为我们的实验领域场景。这个领域非常依赖于特定领域的知识，这使得它非常适合于重点研究。例如，中国刑法条款包含对犯罪、犯罪行为和相应处罚的详细描述，包括程序和概念知识。这个知识库使法官能够有效地执行各种任务，如确定指控、推荐相关法律文章和预测判决，所有这些都需要对封装的知识有深刻的理解和应用。鉴于其明确定义的知识点和构建能力项目的容易程度，选择法律领域以确保对重新任务框架的严格控制和精确验证。

在这种情况下，判决预测任务涉及根据刑事案件中呈现的事实描述评估刑事罪犯，并预测他们的判决可能落入的量刑范围。例如，如果被告犯有故意伤害罪，可能的量刑幅度可能是:3年以下、3至10年或10年以上。这一判决过程需要对相关法律条文和知识的高度理解和应用，要求法律硕士对法律知识、关键案件要素、基本量刑概念和量刑程序逻辑有深刻的理解和应用。因此，我们选择句子预测任务作为本实验的一个挑战，在此期间，我们将分析和构建相关的能力项目，以充分验证我们的框架的有效性。

我们首先确定与句子预测任务相关的几个能力项目。任务成本(Task CoT ):该能力项目要求在判决过程中演示整体程序知识的应用，专门用于提高LLM有效应用程序知识的能力。这种方法在业内被广泛认为是思维链(CoT)过程[25]。

C1:此能力项目旨在通过结构化表达提高法律硕士对法律条文的概念性理解，促进对法律文本及其含义的更深理解。
C2:该能力项目侧重于确定刑事案件中事实描述的关键要素，以增强LLM对案件中关键要素的概念理解。
C3:这一能力项目涉及基本量刑概念的说明性区分，以增强司法部长对基本概念的理解，如对受害者的伤害程度。
C4:这一能力项目提供了判决结果的说明性解释，以提高司法部长在判决中运用程序知识的能力。

有关相关能力项目的详细信息，请参考附录B.3。然后，我们从公开可用的CAIL数据集(ChinaAi-Law-Challenge) [26]构建句子预测数据集。数据集包括200和600个实例的训练集以及200个实例的测试集。更多详情请参见附录B.2。

在这里插入图片描述

图2:提示策略从左到右:标准提示(SP)，带能力项的SP，带CoT的SP，以及CoT和能力项相结合的SP。

在这里插入图片描述

表1:不同能力项增强的各种提示策略的准确率(%)比较。

实验设置在为实验选择LLM时，我们在Re-TASK框架中使用了提示策略和微调管道来增强LLM性能，从而将我们的选择限制在开源LLM。此外，由于任务以中国刑法为中心，我们选择了受欢迎的中国法律硕士。因此，我们在他们的聊天版本中选择Qwen1.5 [3]，Llama3-Chinese [11]和Yi1.5 [27]进行验证。在随后的实验中，我们将分析不同的能力项对提高这些大型语言模型的句子预测任务的性能的影响。此外，我们将实验扩展到不同规模的LLM，以验证我们框架的可扩展性。具体来说，我们选择具有7B、14B和32B参数的Qwen1.5系列。

在重新任务框架内，我们采用了两种不同的方法来提高LLM的性能:(I)精心设计的提示策略，涉及领域特定知识的注入和相应能力项目的增强。基线，包括SP(标准提示)和SP + CoT，以及我们的方法(包括SP + Cj和SP + Cj + CoT)，如图2所示。(II)故意设计的微调管道，其优先考虑能力项目并最小化对大量特定任务指令的需要。我们将我们的创新管道与传统的微调方法进行比较，传统的微调方法主要依赖于特定任务的指令。所有微调过程都基于LoRA [16]。详细设置见附录c。

在这里插入图片描述

图3:纳入各种能力项的不同提示策略的任务绩效。

为了验证能力项目通过提示增强目标任务的有效性，我们开发了各种注入知识和整合能力项目演示的提示策略。这种方法有助于将相关技能转化为知识，从而提高任务绩效。表1和图3中给出的实验结果表明，对于每个LLM，SP + Cj策略在所有测试的功能项(Cj，j = 1，2，3，4)上始终优于SP策略。类似地，SP + Cj + CoT策略的性能通常超过SP + CoT策略。这个证据强调了将一个能力项目合并到提示中可以显著地提高任务性能。特别是，对于功能项3，与SP基线相比，平均绝对性能提高了14.17%，与SP +CoT基线相比，平均绝对性能提高了9.17%。

值得注意的是，对于Yi1.5-9B模型，具有能力项3的SP +Cj显著增强了性能，从60%增加到74%。类似地，具有功能项4的SP + Cj + CoT也表现出显著的性能提升，从74.5%提高到84.5%。此外，我们观察到将能力项与CoT提示相结合通常会导致任务性能的进一步增强。

显然，不同的能力项目对任务绩效的贡献程度不同，这取决于它们与任务的相关性。例如，平均而言，能力项3在任务性能方面提供了最显著的增强，而能力项2的影响最小。我们还注意到，不同的模型对同一能力项的敏感度不同。例如，第4项在Yi1.5-9B模型中比在LLaMA3-Chinese-8B模型中更显著地增强了任务绩效。这种差异在很大程度上归因于每个型号的固有功能。已经拥有高固有功能的模型可能不会因为添加了某些功能项而经历实质性的性能改进。此外，我们放大了Qwen1.5系列中的模型参数，实验结果如图4所示。

在不同的能力项目中观察到一致的趋势:随着模型规模的增加，各种提示策略的性能也增加。能力项的合并通常会增强任务的性能。在32B级别，使用标准提示的性能已经很高了，添加CoT或功能项可以使性能快速接近大约90%的上限。这强调了虽然LLM随着规模的增加表现出增强的性能，但是它们仍然面临特定领域任务的挑战。我们的框架有效地解决了这些挑战，即使在模型扩展时也能提供显著的优势。

在这里插入图片描述
图4:使用Qwen1.5模型的不同量表(7B、14B和32B)，跨各种提示策略的任务绩效。

在这里插入图片描述
图5:使用不同LLM的各种功能项目的微调结果的比较。

微调流水线实验为了进一步验证能力项通过微调提高任务性能的有效性，我们设计了一个两级指令微调流水线。这个过程从识别与任务相关的关键能力项和创建能力级指令开始。随后，我们使用这些能力级指令，然后是任务级指令来微调LLM。我们采用了三个大型模型:Qwen1.5-7B、LLaMA3-Chinese-8B和Yi1.5-9B。

将这些模型与仅利用任务级指令的传统微调方法进行比较。任务指令训练集的大小设置为0、200和600，允许在不同数量的任务级指令数据下对性能进行综合分析。如图5所示，与传统的微调方法相比，我们的新管道在目标任务上表现出增强的性能。此外，随着培训过程中任务指令数量的增加，能力项目的纳入不断提高了培训的有效性，任务绩效的提高稳定在大约90%。类似于提示方法的发现，不同的能力项目对绩效提高的影响是不同的。这突出了战略性地设计适当的能力项目以优化任务性能的至关重要性。

结论

在本研究中，我们引入了Re-TASK框架，这是一种新的理论方法，旨在理解、评估和增强大型语言模型(LLM)在特定领域任务中的性能。在Re-TASK框架内，我们开发了两个旨在提高LLM绩效的范例:促进策略，包括领域知识的注入和相关技能的调整；以及一种流线型的微调方法，该方法集中于增强能力项以提高任务性能。大量的实验验证了我们的框架的有效性，证明了LLMs在特定领域任务的性能和适用性方面的显著改进，从而证实了该框架的潜力。

限制

识别与任务相关联的能力项目是一项复杂的任务。对于每一个给定的任务，最重要的是首先找出相关的知识点，然后确定解决任务所需的相应技能。虽然自动识别功能项——例如通过利用预先构建的领域知识库或高级LLM——是未来研究的一个有前途的方向，但它超出了当前工作的范围，需要在后续研究中进一步探索。

目前，我们在一个单一的领域中进行实验，因为手工构建能力项目需要付出努力。我们选择法律领域作为我们的实验领域，因为它非常依赖于特定领域的知识，具有定义明确的知识点，并提供了一个相对简单的构建能力项目的过程。这种选择确保了对重新任务框架的严格控制和精确验证。展望未来，我们计划将我们的实验扩展到更多的公共领域，以证明Re-TASK框架的可推广性。

与通过神经网络结构(例如，注意机制)调查和理解LLM的传统研究范式相比，我们从认知科学的角度来研究LLM。这种新颖的方法为LLM从业者加深对这些模型的理解、评估和增强开辟了一条新的途径。我们将继续探索和完善重新任务框架。未来的工作将涉及开发一个全面的诊断框架，以补充重新任务，并使用该框架解决LLM中的幻觉问题。这些进步预计将有助于开发更强大、高效和多功能的人工智能系统，增强它们在各种应用中的可靠性和有效性。

附录

a .所有实验结果

A.1提示策略的实验结果本节给出了在Qwen1.5-7BChat、Qwen1.5-14B-Chat、Qwen1.5-32B-Chat、LLaMA3-Chinese-8B-Instruct、Yi1.5-9B-Chat五种机型上提示策略的实验结果，如表2所示。结果表明，能力项目的整合显著提高了这些模型在句子预测任务中的准确性。

在这里插入图片描述
在提示策略中使用的标准提示(SP)包括任务演示。单独包括能力项的演示可能会使模型偏向于生成对应于能力项的响应，而不是处理手边的任务。为了减轻这种影响，相同格式的任务的演示被附加在能力项目的演示之后。因此，在标准的提示程序中，包含了一个任务演示作为基线。

A.2微调管道的实验结果三种不同的模型-qwen 1.5-7 b-Chat、LLaMA3-Chinese-8B-Instruct和Yi1.5-9B-Chat被训练和部署用于微调管道，与第4.3节中描述的模型一致。任务，本节中正在进行微调管道的模型使用了一个“不带演示的SP”提示模板。由于在微调管道期间，模型已经在功能项数据集上进行了微调，因此在测试期间，不需要在提示中包含功能项演示。因此，在测试期间的提示中，任务演示也是不必要的。因此，在本节的适应性测试中，我们采用了“没有演示的SP”提示模板。这种方法上的差异解释了两个部分的结果之间观察到的不一致。

在这里插入图片描述

表3总结了包括各种模型和模型尺寸的实验结果。

在这里插入图片描述

本工作中使用了五个模型:Qwen1.5-7B-Chat、Qwen1.5-14B-Chat、Qwen1.5-32B-Chat、Yi1.5-9B-Chat和LLaMA-Chinese-8B-Instruct。Qwen1.5系列和Yi1.5系列模型作为官方聊天版本从拥抱脸获得，而LLaMA3-Chinese-8B模型则从Modelscope下载，如表4所示。

B.2任务数据集我们使用的数据集来自Cail2018竞赛[26]，来源于“中国审判在线”上公开的刑事法律文件。数据集中的每条记录都包含以下内容的描述与A.1节中报告的结果相比，本节中呈现的结果存在一些差异。这些差异源于在各个实验中使用了不同的提示模板。而A.1部分采用四个模板(SP、SP+Cj、SP+CoT和SP+Cj+CoT)用于从法律文件中摘录的案件细节和事实部分。此外，每个案件都包括适用的法律条款、对被告的指控和刑期。该数据集包括大约268万份刑法文件，涉及183项不同的指控和202条法律条文，刑期从0年到25年不等，包括无期徒刑和死刑。我们的焦点完全集中在句子预测的任务上。

判决预测任务需要使用刑事法律文件中提供的描述和事实来估计被告的刑期。这项任务整合了数据集中的五个基本要素:犯罪事实、指控、引用的法律条款、被告姓名和刑期。为了使用CAIL2018数据集，我们实现了以下处理步骤:1)选择几篇常见的刑法文章作为知识库。然后，过滤原始数据集，仅包括与这些文章相关的刑事案件。

此外，我们排除了基于句子范围内

在暗示句子预测月份的数据实例。
设计了合适的任务指令，规范了任务的输出格式。
刑期的具体月份长度被转换成三个更广泛的量刑类别，ABC(A:3年以下；B: 3到10年；c:10年以上)。
为该任务设计了一系列健壮有效的测试提示模板。

从CAIL 2018数据中，生成了四个数据集:200个实例的训练集、600个实例的训练集、200个实例的测试集和200个实例的能力项目集。600个实例的训练集、200个实例的测试集和200个实例的能力项集是独立的，没有重叠的实例。200个实例的训练集是从600个实例的训练集中随机抽样的。此外，200个实例的功能项集是专门为开发功能项2、3和4而创建的。三个判决选项(A、B、C)在四个数据集中的分布比例约为1:1:1。提示策略和微调管道的所有推理测试都使用200个实例的测试集。提示策略利用200个实例和600个实例的训练集。句子预测任务的例子如图6所示。

B.3能力项目数据集能力项目定义

能力项目1 (C1) -法律条款的结构化表达，以增强LLM对法律条款的概念性理解。该功能项的任务需求是从给定的法律文章中提取关键信息:输入是法律文章文本信息，输出是来自法律文章的结构化关键信息，包括犯罪、犯罪行为和相应的处罚。
能力项目2 (C2) -确定刑事案件中事实描述的关键要素，以增强司法部长对案件中关键要素的概念理解。该能力项的任务要求是从案件事实中提取关键对象:输入是案件事实的描述，输出是被识别的关键要素，如被告人、被害人、犯罪行为、法医鉴定结果、危害程度等。
能力项目3 (C3) -对判决中依赖法律条款的一些基本概念进行说明性区分，以增强司法部长对基本概念的理解，如对受害者的伤害程度(a .轻伤、b .重伤、c .死亡或严重残疾)。该能力项的任务要求是确定对被害人的伤害程度:输入是案件事件中被告对被害人行为的具体描述，输出是对被害人的伤害程度。
能力项目4 (C4) -判决结果的说明性解释，以提高法律硕士应用程序性判决知识的能力。该能力项的任务需求是为输入案件中的被告人提供量刑结果的解释性说明:输入是对案件事实和相应量刑结果的描述，输出是量刑程序逻辑的解释性说明。这也可以理解为一种CoT过程。

能力项目1的数据来源于刑法，选取100篇常用法律文章作为初始数据。能力项2、3和4的数据来自200个实例的能力项集，随机选择100个实例作为原始数据。能力项的训练集由GPT-4 API生成，随后进行人工验证以确保数据的准确性。使用数据源作为任务的输入，使用GPT-4生成的结果作为输出，为每个能力项编写任务描述。为功能项创建的任务模板如图7、图8、图9和图10所示。

在这里插入图片描述

c .实验设置

C.1提示策略细节在提示策略实验中，每个实验包括一个任务演示或一个带有思维链(CoT)的任务演示。此外，每个试验可能包括一个功能项目演示。任务演示和能力项演示都是从它们各自的训练集中随机选择的，并被合并到提示中。对于每种模型和每种类型的提示，进行了四次试验，并在文中报告了平均准确度。

在提示策略中使用的标准提示(SP)包括任务演示。仅仅包括功能项的演示可能会使模型偏向于生成与能力项目相对应的响应，而不是处理手边的任务。为了减轻这种影响，相同格式的任务的演示被附加在能力项目的演示之后。因此，在标准的提示程序中，包含了一个任务演示作为基线。

在这里插入图片描述

C.2微调流水线细节所有实验结果测量四次，报告平均精度。利用LLaMA-Factory GitHub存储库(https://GitHub . com/hi youga/LLaMA Factory)对模型进行微调。微调过程使用LoRA方法实施，特别针对Qwen1.5、LLaMA3和Yi1.5型号的q_proj和v _ proj。LoRA调谐的配置参数包括等级16 (lora_rank)、比例因子32 (lora_alpha)和退出率0.05 (lora_dropout)。训练在三个时期(num_train_epochs)上进行，学习率为0.0002(学习率)。附加设置配置如下:预处理由16个workers处理(preprocessing_num_workers)，每台设备训练期间的批处理大小设置为2 (per_device_train_batch_size)，评估期间，每台设备的批处理大小设置为4 (per_device_eval_batch_size)。在每个训练步骤之后执行评估和保存检查点(eval_steps和save_steps设置为1)。最后，所有计算都以混合精度格式执行(fp16模式)。我们对能力项和任务的每个模型的收敛性进行了初步检查。我们的观察表明，收敛通常在第3或第4时段实现。因此，对于LLaMA3，我们将num_train_epochs参数设置为4，对于其他模型，设置为3。

我们为微调流水线设计了一个两阶段的指令微调策略。传统的微调是基于任务指令的，直接在任务指令上对大模型进行微调。相比之下，我们采用的策略首先在大模型上进行能力项目指导，然后是任务指导。能力项目适应的训练集包括100个例子。任务适应的训练集分别由200个样本和600个样本组成。所有微调参数在整个过程中保持一致。

在这里插入图片描述