Datawhale AI夏令营 AI+逻辑推理 Task1总结

荧惑yh

于 2024-07-28 21:12:18 发布

阅读量261

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_43787408/article/details/140756469

版权

Datawhale AI夏令营 AI+逻辑推理 Task1总结

一、赛事链接

赛事链接：http://competition.sais.com.cn/competitionDetail/532231/format

赛事内容：该比赛聚焦于通过解决复杂的逻辑推理题，测试大型语言模型的逻辑推理能力，这些逻辑题涵盖了多种关系和推理规则，能够全面评估模型的逻辑推理能力，在赛题设置上，采用了多样化的逻辑题，覆盖了不同难度的逻辑推理任务，强调了逻辑推理在AI领域的重要性

二、比赛相关逻辑推理背景知识

逻辑推理概念：理解基本的逻辑推理概念，包括命题逻辑和谓词逻辑。熟悉如何从一组假设中得出结论，并能够识别和运用逻辑关系和规则。
结构化问题解决：
- 事实和规则的应用：了解如何在复杂问题中应用已知事实和规则，进行有条理的推理和解题。
- 关系和属性的推理：掌握推理中常见的关系，如相邻、位置、顺序等，以及如何通过这些关系进行推理。
- 常见逻辑谜题类型：熟悉各类逻辑谜题，如斑马问题、房间问题等。这些谜题通常涉及多种关系和属性的推理，需要通过分析和组合已知信息来解决问题。
自然语言模型：
- 知识抽取方法：可能会使用到相关知识抽取技术，比如命名实体识别、关系抽取等。
- 生成模型方法：可能会使用到相关生成模型，比如语言模型等。

三、比赛任务及数据集说明

3.1 比赛任务

此次比赛提供基于自然语言的逻辑推理问题，涉及多样的场景，包括关系预测、数值计算、谜题等，希望选手通过分析推理数据，利用机器学习、深度学习算法或者大语言模型，建立预测模型。

初赛：

任务：构建一个能够完成推理任务的选择模型

复赛：

任务：构建一个能够完成推理任务的选择模型

比赛规定运用机器学习模型或者深度学习模型解决推理问题，或者利用训练集数据对开源大语言模型进行微调。为了提高使用大语言模型解决问题的能力，此次比赛会采用微调大语言模型的方法。

3.2 数据集

初赛：

初赛数据集为逻辑推理数据，其中训练集中包含500条训练数据，测试集中包含500条测试数据。每个问题包括若干子问题，每个子问题为单项选择题，选项不定（最多5个）。目标是为每个子问题选择一个正确答案。推理答案基于闭世界假设（closed-world assumption），即未观测事实或者无法推断的事实为假。
具体的，每条训练数据包含 content, questions字段，其中content是题干，questions为具体的子问题。questions是一个子问题列表，每个子问题包括options和answer字段，其中options是一个列表，包含具体的选项，按照ABCDE顺序排列，answer是标准答案。

数据集格式如下：

round1_train_data.jsonl : 每一行代表一条反应

{'id': 'round_train_data_001',
'problem': '有一个计算阶乘的递归程序。该程序根据给定的数值计算其阶乘。以下是其工作原理：\n\n当数字是0时，阶乘是1。\n对于任何大于0的数字，其阶乘是该数字乘以其前一个数字的阶乘。\n根据上述规则，回答以下选择题：',
 'questions': [{'question': '选择题 1：\n3的阶乘是多少？\n',
   				   'options': ('3', '6', '9', '12'),
   					'answer': 'B'},
  				  {'question': '选择题 2：\n8的阶乘是多少？\n',
   					'options': ('5040', '40320', '362880', '100000'),
   					'answer': 'B'},
  				  {'question': '选择题 3：\n4的阶乘是多少？\n',
   					'options': ('16', '20', '24', '28'),
   					'answer': 'C'},
  				  {'question': '选择题 4：\n3的阶乘是9吗？\n', 
  				   'options': ('是', '否'), 
  				   'answer': 'B'}]
}

测试集 round1_test_data.jsonl 不包含answer字段。

复赛：

复赛会提供另外500道测试题。

三、评估指标

该比赛中，提交得到的分数就是测试结果集中回答的准确率，因此可以看到排行榜中的分数都在1以下。

四、Baseline相关

Task1中提供了完整的代码，可以一键跑通，过程很顺利，但是baseline中的解决方案只是调用Qwen1.5-32B的API进行逻辑推理，没有做微调。

总的来说，Baseline虽然能够解决一些逻辑推理问题，但还有很多提升空间，预计后续会继续优化代码，加入一些微调等提高大模型能力的操作，期望其可以解决更多问题，同时提高准确率。

荧惑yh

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营 AI+逻辑推理 Task1总结

赛事链接：http://competition.sais.com.cn/competitionDetail/532231/format赛事内容：该比赛聚焦于通过解决复杂的逻辑推理题，测试大型语言模型的逻辑推理能力，这些逻辑题涵盖了多种关系和推理规则，能够全面评估模型的逻辑推理能力，在赛题设置上，采用了多样化的逻辑题，覆盖了不同难度的逻辑推理任务，强调了逻辑推理在AI领域的重要性。
复制链接

扫一扫