一、高质量数据对于大模型的影响:模型的持续演化已经成为趋势,高质量数据的持续采集构造将成为影响大模型技术深入发展的关键因素。数据的采集、构造、过滤、去重、归一化和评估是数据处理的主要流程,大模型的持续演化则对这些流程的效率提出了新的挑战。通过知识蒸馏的方式,从大模型中获取数据用于训练小模型,使得小模型也表现出涌现能力。
二、已有的研究工作
1.训练数据采集生成
预训练所用的文本数据可以分为两类:网页数据和专用数据。网页数据多为爬虫数据;专用数据为某一个领域、语言、行业的特有数据,如对话、书籍、代码、技术报告、论文、考试等数据。
除了文本数据外,图像、视频等多模态数据也是大模型训练数据的重要组成部分。
2.预训练数据处理
“鹏城 脑海”团队开发的万亿级词元高质量数据分类分级管理平台包括数据下载、预处理、清洗、过滤、样本去重和高质量数据筛选6个模型。如图(图1为增补的一个图)所示,其数据构建流程结合了自动化工具的高效性和人工评审的准确性。
3.数据质量保障
研究表明:训练集中的数据缺陷可能影响智能软件内嵌模型的性能,而验证集中的数据缺陷则会妨碍训练状态的准确判断,并导致不恰当的模型结构和训练停止节点选择。数据缺陷:标签错误和数据噪声。典型的静态缺陷权重计算工具是CleanLab,其核心思想是基于多个交叉验证模型的预测结果差异,计算混淆矩阵,并通过混淆矩阵实现对整个数据集中每个数据样本的缺陷怀疑度打分,优先对高怀疑度的数据进行人工检测和修正。DFauLo则是一种动态数据缺席定位方法,它会随着人工检测过程迭代更新未检查数据的怀疑度排序。
4.评估数据构造
评估基准数据集是评估方案的基础,在智能软件演化中发挥重要作用。现有评估数据的构造方式主要有以下几种:(1)人工手写数据集;(2)从网络上爬取原始数据,并清洗整理;(3)对已有数据集进行扩展。以代码大模型为例,代码生成领域现有的评估代码集包括HumanEval等手工数据集(Python语言编写的164条数据,每条数据包括输入模型的提示文本、参考代码和对应的测试用例,包含的数据量较少)、CoderEval数据集(开发人员从GitHub开源平台上人们项目的代码中选取,并根据模型的输入输出方式对代码进行相应的修改,便于模型评测)、MBXP数据集(由Python语言通过编程语言翻译技术扩展为C++、Java等十种编程语言)等。
5. 数据对模型训练影响分析
北航研究提出了三个多模态大模型的设计维度:数据混合、训练策略和模型选择,分别展开消融实验,发现:高质量的数据选择和更加细致的训练策略,小模型可以实现和大模型相近甚至比大模型根据优越的任务表现。