数据的收集(山东大学软件学院2024项目实训--时空漫游者)

本实训项目需要从山东大学的官网上以及其他渠道获取相关数据。

官网查询

我将尝试从山东大学的官网中,获取相应的人物事迹等信息,经过处理后用于模型的微调。

历史名人-山东大学 SHANDONG UNIVERSITY (sdu.edu.)

官网共计统计了59位历史名人。

在官网中对这些名人分别提取与山东大学相关信息后,整理成文档,以方便后面使用。

文档整理

选取代表性强的,训练意义较大的一些名人,整理数据集(分为不同规模。一部分用于测试线上训练功能,作为实际操作的数据;一部分用于暂时备用)。

以官网中出现过的老舍先生为例,先整理出少量数据用于测试魔搭线上训练的流程。

数据集中的QA对通过两种方式获得:一部分是对山大官网中相关的文章内容进行提取(以老舍与山大-山东大学新闻网 (sdu.edu.cn)为例),对文章中可以改写成QA对的内容进行改写,改写为QA对方便线上训练使用;另一部分按照比较规整的固定的格式,对老舍的文学作品进行归纳性的提问(例如,假如你是老舍,您的作品中是否有展现了对社会现实的批判和反思?),保证数据集在实现与山东大学相关问题的强化之余,规范化其他普适性强的问题的问答。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值