📖标题:LegalAgentBench: Evaluating LLM Agents in Legal Domain
🌐来源:arXiv, 2412.17259
🌟摘要
🔸随着LLM代理的智能化和自主性的增加,它们在法律领域的潜在应用越来越明显。然而,现有的通用域基准不能完全捕捉现实世界司法认知和决策的复杂性和细微差别。
🔸因此,我们提出了LegalAgentBench,这是一个专门为评估中国法律领域的LLM代理而设计的综合基准。LegalAgentBench包括来自现实世界法律场景的 17 个语料库,并提供了 37 个与外部知识交互的工具。我们设计了一个可扩展的任务构建框架并仔细注释了 300 个任务。这些任务涵盖各种类型的,包括多跳推理和写作,以及不同难度级别的范围,有效地反映了现实世界法律场景的复杂性。此外,除了评估最终成功之外,LegalAgentBench 在中间过程中结合了关键字分析来计算进度率,从而实现更细粒度的评估。
🔸我们评估了八个流行的 LLM,突出了改进现有模型和方法的优势、局限性和潜在领域。LegalAgentBench为llm在法律领域的应用设定了一个新的基准,其代码和数据可在https://github.com/CSHaitao/LegalAgentBench获