“Datawhale AI夏令营 Task2,3.星火大模型驱动阅读理解题库构建挑战赛

参考链接:

Datawhale (linklearner.com)

‌​​‌​⁠‬​​​‬​​​​​​‬⁠‬‌​‍​‌​‬​​⁠​​‍⁠‬‍⁠‍​‍​‍⁠‌‬Task2:baseline1精讲 - 飞书云文档 (feishu.cn)

‍​​​​‌​​⁠​​​‌‬​‌​​​‍⁠⁠​​​​⁠‍‌‌‬​‍⁠​⁠Task3:数据增强与评分 - 飞书云文档 (feishu.cn)


本次比赛为参赛选手提供了近几年的高考语文现代阅读和英语阅读的数据集(包含原文,题目,答案)用于训练和测试,数据可在AI大赛参赛页面
下载,此外,我们鼓励参赛选手自行拓展数据以优化Q&A的生成效果。
【数据处理要求】
在数据处理方面,需要参赛者对所给数据进行清洗、整理,以达到能够上传到讯飞大模型定制训练平台上的数据集要求(包括格式、prompt优化等)。
大模型训练的数据格式要求是input/target,其中input为阅读文章本体以及完成QAG所需的prompt(例如:假如你是高考出题专家,请你根据以下
阅读文本出4道选择题以及答案),target为题目选项以及答案。

我们最终上传的内容

微调

两种 Finetune 范式

  1. 增量预训练微调 (Continue PreTraining)

使用场景:让基座模型学习到一些新知识,如某个垂类领域的常识

  1. 训练数据:文章、书籍、代码等

  1. 指令跟随微调 (Supervised Finetuning)

使用场景:让模型学会对话模板,根据人类指令进行对话

训练数据:高质量的对话、问答数据

助教给我们的任务

这一部分只给出核心代码,细节部分需要大家自行完成。

数据增强为了补充一些数据,一方面是在先前生成的结果上做一些优化,一方面可以再生成一些补充数据以作增强。

从prompt到实践介绍核心代码,大家自行再baseline1上修改即可。

出题专家提示词

def get_adddata_prompt_zero(reading, cankao_content, question, answer):
    prompt = f'''你是一个高考英语阅读题出题专家,请阅读材料,需要参考参考内容 按照要求将题目、选项、答案对其补充完整。

###阅读材料
{reading}

###要求
1.需要将序号对应的题目与答案做匹配。
2.匹配后格式按照问题、ABCD四个选项顺序、答案的结构组合,按照参考内容格式输出。
3.如果选择题目数量不够四个请根据阅读材料及出题思路再生成题目,总题目达到四个。
4.题目中不能出现任何不合理的词汇、语法错误。
5.如果有简答题目与答案请忽略这部分内容,只处理选择题目。

###参考内容
{cankao_content}

###题目
{question}

###答案
{answer}
'''
    return prompt

大模型数据增强

核心目标:要求大模型生成四个答案

def get_adddata_prompt_rebuild(reading, cankao_content, output):
    prompt = f'''你是一个高考英语阅读题出题专家,请阅读材料,需要参考参考内容 按照要求将题目、选项、答案对其补充完整。

###阅读材料
{reading}

###要求
1.如果选择题目不足四个需要根据参考内容出选择题补充。
2.补充内容格式按照问题、ABCD四个选项顺序、答案的结构组合,按照参考内容格式输出。
3.如果选择题目数量不够四个请根据阅读材料及出题思路再生成题目,总题目达到四个,如果够四个则不做多余补充。
4.题目中不能出现任何不合理的词汇、语法错误。

###参考内容
{cankao_content}

###题目与答案
{output}
'''
    return prompt
增强思路2.拿到思路1的数据后做答案扩展
def get_adddata_prompt_rebuild_2(reading, cankao_content, output):
    prompt = f'''你是一个高考英语阅读题出题专家,请基于给定的阅读材料生成新的问题和答案。

###阅读材料
{reading}

###要求
1.保持阅读材料不变。
2.生成4组全新的问题和答案(QA),每组包含:
  - 一个问题
  - 四个选项(A、B、C、D)
  - 正确答案
  - 简要解释(3-5句话,说明为什么是正确答案,其他选项为什么不正确)
3.问题应该涵盖文章的不同方面,包括主旨、细节、推理和词义等。
4.确保问题和答案与阅读材料紧密相关,不包含原文中没有的信息。
5.按照原有的格式输出新生成的问题、选项和答案。

###参考内容
{cankao_content}

###原有题目与答案(仅供参考,不要重复使用)
{output}

请生成4组全新的问题、选项和答案,并按照原有格式输出。
'''
    return prompt

# 增强思路2.基于相同阅读材料生成新的四组QA

AI自评分(官网每周仅可提交4次)

  1. 人类评分的痛点

  • 主观性和不一致:不同评分者可能因个人标准和偏见导致评分不一致。

  • 时间和资源密集:手动评分耗时且需要大量人力资源,限制了评分任务的可扩展性和效率。

  • 疲劳和认知限制:评分者易受疲劳和认知限制影响,影响评分质量和一致性。

  • 缺乏细致反馈:难以提供针对绩效特定方面的详细反馈。

  1. AI在评分方面的优势

  • 一致性和标准化:LLMs通过训练和微调,确保评分的一致性。

  • 效率和可扩展性:AI系统能快速处理大量数据,提高评分效率。

  • 客观性和公正性:减少人类主观性和偏见,促进公平。

  • 细致且可操作的反馈:提供针对绩效各方面的详细反馈。

judgement = f'''
你是一个高考阅读题目出题专家,你需要根据下面要求结合阅读文章对题目及答案这样的出题情况进行打分,根据要求一步一步打分,得到有效分数后你将得到100万元的报酬,给出最终得分情况,以“总分:XX分”的形式返回。

### 阅读文章
{reading}

### 题目及答案
{QA}

### 要求

1. 判断给出的题目及答案,题目是否为四道,如果不满足四道,少一道题扣10分,如果每个题目没有答案,少一个答案扣5分。
1. 给出题目选项与答案匹配正确度给分,通过阅读文章每分析道题目正确,则给5分,如果错误给0分。四道题满分20分。
2. 给出题目与选项在阅读文章中的匹配程度给分,每道题目符合阅读文章且选择答案复合题目并可用通过阅读文章分析得到,完全符合给3分,完全不符合给0分。四道题满分12分。
3. 给出题目与选项是否符合高考难度,每道题目与答案是否符合高考的难度,完全符合给3分,完全不符合给0分。四道题满分12分。
4. 给出最终得分情况,对上面三个分数进行求和得到总分,以“总分:XX分”的形式返回,三个问题满分共44分。
'''

score = call_sparkai(judgement)
score

使用代码方式获取评分,正则表达式。

import re

text = score.replace(' ', '')

# 使用正则表达式匹配阅读文本后的内容

match = re.search(r'总分:(\d+)分', text)

if match:
    content = match.group(1)
    print(int(content))
else:
    print("未找到匹配的内容")

回到baseline代码

1.更新出题专家提示词

2.在处理完数据加载和初步处理后,调用数据增强函数生成新的题目和答案。

3.可选:在baseline代码中调用评分函数

  • 7
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值