大模型能否真正理解上下文？

人工智能大模型讲师培训咨询叶梓

已于 2024-08-14 21:32:12 修改

阅读量1.5k

点赞数 30

分类专栏：人工智能讲师文章标签：语言模型人工智能自然语言处理计算机视觉深度学习大模型上下文

于 2024-08-14 19:30:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44292902/article/details/141165086

版权

人工智能咨询培训老师叶梓转载标明出处

尽管对LLMs的评估涵盖了自然语言处理（NLP）的各个领域，但对它们理解上下文特征的语言能力的探讨却相对有限。为了填补这一空白，乔治城大学和苹果公司的研究者们共同提出了一种新的上下文理解基准测试，旨在评估生成模型的性能。

任务选择与设计

研究者们构建了一个评估大模型（LLMs）上下文理解能力的基准测试。这个基准测试精心设计了四个任务，涵盖了九个不同的数据集，以此来全面地评估模型对上下文的理解。

用于评估语言模型上下文理解能力的四个不同任务和九个数据集

指代消解

任务说明：指代消解任务对于理解文本中表达的整体含义至关重要。这项任务检测语言模型在文档内把握指代关系和上下文细微差别的能力。

数据集：

WSC273：取自Winograd Schema Challenge的前273个例子，这个数据集要求系统阅读一个包含模糊代词的句子，并从两个选项中选择正确的指代对象。
OntoNotes 5.0：这是一个人工标注的文档语料库，包含了句法、命题、命名实体、词义和文档内的指代关系等多层次的语言信息。

评估方法：研究者们设计了一种多项选择任务，提供了提及（mentions）并评估模型在消解任务上的表现。每个选项代表一个可能的可标记跨度（markable span）。

示例（Table 1）：

指令：请仔细阅读以下段落。对于每个段落和选项，你必须识别加粗提到的内容所指的选项。如果加粗的提及没有任何先行词，则选择“无先行词”。
上下文：...为了表达its决心，中国证券监管部门将这次股票改革比作已经掷出的骰子...
选项：A. 无先行词 B. 中国证券监管部门 C. 这次股票改革
问题：its指的是什么？
答案：B

对话状态跟踪

任务说明：对话状态跟踪是任务型对话（TOD）建模中的一个重要任务，对话代理需要追踪用户在对话过程中提供的关键信息。

数据集：

MultiWOZ：这个数据集提供了用户在寻找餐厅时表达的约束条件的例子。

评估方法：研究者们采用了由Heck等人（2023）提出的一种直接且简化的ICL方法&#

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。