人工智能咨询培训老师叶梓 转载标明出处
尽管对LLMs的评估涵盖了自然语言处理(NLP)的各个领域,但对它们理解上下文特征的语言能力的探讨却相对有限。为了填补这一空白,乔治城大学和苹果公司的研究者们共同提出了一种新的上下文理解基准测试,旨在评估生成模型的性能。
任务选择与设计
研究者们构建了一个评估大模型(LLMs)上下文理解能力的基准测试。这个基准测试精心设计了四个任务,涵盖了九个不同的数据集,以此来全面地评估模型对上下文的理解。

指代消解
任务说明: 指代消解任务对于理解文本中表达的整体含义至关重要。这项任务检测语言模型在文档内把握指代关系和上下文细微差别的能力。
数据集:
- WSC273:取自Winograd Schema Challenge的前273个例子,这个数据集要求系统阅读一个包含模糊代词的句子,并从两个选项中选择正确的指代对象。
- OntoNotes 5.0:这是一个人工标注的文档语料库,包含了句法、命题、命名实体、词义和文档内的指代关系等多层次的语言信息。
评估方法: 研究者们设计了一种多项选择任务,提供了提及(mentions)并评估模型在消解任务上的表现。每个选项代表一个可能的可标记跨度(markable span)。
示例(Table 1):
- 指令:请仔细阅读以下段落。对于每个段落和选项,你必须识别加粗提到的内容所指的选项。如果加粗的提及没有任何先行词,则选择“无先行词”。
- 上下文:...为了表达its决心,中国证券监管部门将这次股票改革比作已经掷出的骰子...
- 选项:A. 无先行词 B. 中国证券监管部门 C. 这次股票改革
- 问题:its指的是什么?
- 答案:B
对话状态跟踪
任务说明: 对话状态跟踪是任务型对话(TOD)建模中的一个重要任务,对话代理需要追踪用户在对话过程中提供的关键信息。
数据集:
- MultiWOZ:这个数据集提供了用户在寻找餐厅时表达的约束条件的例子。
评估方法: 研究者们采用了由Heck等人(2023)提出的一种直接且简化的ICL方法&#