Datawhale AI夏令营 AI+逻辑推理 Task1总结
一、赛事链接
赛事链接:http://competition.sais.com.cn/competitionDetail/532231/format
赛事内容:该比赛聚焦于通过解决复杂的逻辑推理题,测试大型语言模型的逻辑推理能力,这些逻辑题涵盖了多种关系和推理规则,能够全面评估模型的逻辑推理能力,在赛题设置上,采用了多样化的逻辑题,覆盖了不同难度的逻辑推理任务,强调了逻辑推理在AI领域的重要性
二、比赛相关逻辑推理背景知识
-
逻辑推理概念:理解基本的逻辑推理概念,包括命题逻辑和谓词逻辑。熟悉如何从一组假设中得出结论,并能够识别和运用逻辑关系和规则。
-
结构化问题解决:
- 事实和规则的应用:了解如何在复杂问题中应用已知事实和规则,进行有条理的推理和解题。
- 关系和属性的推理:掌握推理中常见的关系,如相邻、位置、顺序等,以及如何通过这些关系进行推理。
- 常见逻辑谜题类型:熟悉各类逻辑谜题,如斑马问题、房间问题等。这些谜题通常涉及多种关系和属性的推理,需要通过分析和组合已知信息来解决问题。
-
自然语言模型:
- 知识抽取方法:可能会使用到相关知识抽取技术,比如命名实体识别、关系抽取等。
- 生成模型方法:可能会使用到相关生成模型,比如语言模型等。
三、比赛任务及数据集说明
3.1 比赛任务
此次比赛提供基于自然语言的逻辑推理问题,涉及多样的场景,包括关系预测、数值计算、谜题等,希望选手通过分析推理数据,利用机器学习、深度学习算法或者大语言模型,建立预测模型。
初赛:
- 任务:构建一个能够完成推理任务的选择模型
复赛:
- 任务:构建一个能够完成推理任务的选择模型
比赛规定运用机器学习模型或者深度学习模型解决推理问题,或者利用训练集数据对开源大语言模型进行微调。为了提高使用大语言模型解决问题的能力,此次比赛会采用微调大语言模型的方法。
3.2 数据集
初赛:
-
初赛数据集为逻辑推理数据,其中训练集中包含500条训练数据,测试集中包含500条测试数据。每个问题包括若干子问题,每个子问题为单项选择题,选项不定(最多5个)。目标是为每个子问题选择一个正确答案。推理答案基于闭世界假设(closed-world assumption),即未观测事实或者无法推断的事实为假。
-
具体的,每条训练数据包含
content
,questions
字段,其中content
是题干,questions
为具体的子问题。questions
是一个子问题列表,每个子问题包括options
和answer
字段,其中options
是一个列表,包含具体的选项,按照ABCDE顺序排列,answer
是标准答案。 -
数据集格式如下:
round1_train_data.jsonl
: 每一行代表一条反应
{'id': 'round_train_data_001', 'problem': '有一个计算阶乘的递归程序。该程序根据给定的数值计算其阶乘。以下是其工作原理:\n\n当数字是0时,阶乘是1。\n对于任何大于0的数字,其阶乘是该数字乘以其前一个数字的阶乘。\n根据上述规则,回答以下选择题:', 'questions': [{'question': '选择题 1:\n3的阶乘是多少?\n', 'options': ('3', '6', '9', '12'), 'answer': 'B'}, {'question': '选择题 2:\n8的阶乘是多少?\n', 'options': ('5040', '40320', '362880', '100000'), 'answer': 'B'}, {'question': '选择题 3:\n4的阶乘是多少?\n', 'options': ('16', '20', '24', '28'), 'answer': 'C'}, {'question': '选择题 4:\n3的阶乘是9吗?\n', 'options': ('是', '否'), 'answer': 'B'}] }
-
测试集
round1_test_data.jsonl
不包含answer
字段。
复赛:
- 复赛会提供另外500道测试题。
三、评估指标
该比赛中,提交得到的分数就是测试结果集中回答的准确率,因此可以看到排行榜中的分数都在1以下。
四、Baseline相关
Task1中提供了完整的代码,可以一键跑通,过程很顺利,但是baseline中的解决方案只是调用Qwen1.5-32B的API进行逻辑推理,没有做微调。
总的来说,Baseline虽然能够解决一些逻辑推理问题,但还有很多提升空间,预计后续会继续优化代码,加入一些微调等提高大模型能力的操作,期望其可以解决更多问题,同时提高准确率。