本实训项目需要从山东大学的官网上以及其他渠道获取相关数据。
官网查询
我将尝试从山东大学的官网中,获取相应的人物事迹等信息,经过处理后用于模型的微调。
历史名人-山东大学 SHANDONG UNIVERSITY (sdu.edu.)
官网共计统计了59位历史名人。
在官网中对这些名人分别提取与山东大学相关信息后,整理成文档,以方便后面使用。
文档整理
选取代表性强的,训练意义较大的一些名人,整理数据集(分为不同规模。一部分用于测试线上训练功能,作为实际操作的数据;一部分用于暂时备用)。
以官网中出现过的老舍先生为例,先整理出少量数据用于测试魔搭线上训练的流程。
数据集中的QA对通过两种方式获得:一部分是对山大官网中相关的文章内容进行提取(以老舍与山大-山东大学新闻网 (sdu.edu.cn)为例),对文章中可以改写成QA对的内容进行改写,改写为QA对方便线上训练使用;另一部分按照比较规整的固定的格式,对老舍的文学作品进行归纳性的提问(例如,假如你是老舍,您的作品中是否有展现了对社会现实的批判和反思?),保证数据集在实现与山东大学相关问题的强化之余,规范化其他普适性强的问题的问答。