清华：评估基于LLM的agent在法律领域的表现

大模型任我行

于 2024-12-30 14:00:59 发布

阅读量785

点赞数 15

文章标签：人工智能自然语言处理语言模型论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/144824608

版权

在这里插入图片描述

📖标题：LegalAgentBench: Evaluating LLM Agents in Legal Domain
🌐来源：arXiv, 2412.17259

🌟摘要

🔸随着LLM代理的智能化和自主性的增加，它们在法律领域的潜在应用越来越明显。然而，现有的通用域基准不能完全捕捉现实世界司法认知和决策的复杂性和细微差别。
🔸因此，我们提出了LegalAgentBench，这是一个专门为评估中国法律领域的LLM代理而设计的综合基准。LegalAgentBench包括来自现实世界法律场景的 17 个语料库，并提供了 37 个与外部知识交互的工具。我们设计了一个可扩展的任务构建框架并仔细注释了 300 个任务。这些任务涵盖各种类型的，包括多跳推理和写作，以及不同难度级别的范围，有效地反映了现实世界法律场景的复杂性。此外，除了评估最终成功之外，LegalAgentBench 在中间过程中结合了关键字分析来计算进度率，从而实现更细粒度的评估。
🔸我们评估了八个流行的 LLM，突出了改进现有模型和方法的优势、局限性和潜在领域。LegalAgentBench为llm在法律领域的应用设定了一个新的基准，其代码和数据可在https://github.com/CSHaitao/LegalAgentBench获

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型任我行 随意啦，喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。