根据数据来源不同,预训练数据主要分为两种类型:通用文本数据和专用文本数据。通用文本数据涵盖了网页、书籍和对话文本等。由于通用文本数据规模较大、多样性强且易于获取,大多数大语言模型都会收集大量的通用文本数据,以增强其语言建模能力。此外,为了进一步提升大语言模型在特定专业任务上的表现,人们还将预训练语料的范围扩展至更专业的数据集,如多语数据、科学数据和代码数据等。
通用文本数据
绝大多数的大语言模型都选用了网页、书籍和对话文本等通用语料作为预训练数据。这些通用语料涵盖了多个主题类别的文本内容。接下来,我们将详细介绍两种重要的通用文本数据。
网页
随着互联网的普及与发展,网页的数据规模持续扩大,覆盖的内容类型也变得丰富多样。使用大规模网页文本数据进行预训练,有助于大语言模型获取多样化的语言知识,并增强其自然语言理解和生成的能力。为了便于使用网页数据进行预训练或相关研究,相关机构已经爬取并发布了多个大规模的网页数据集,包括 C4、RefinedWeb、CC-Stories等。然而,这些网页数据集中既包含了维基百科这种高质量文本,也不可避免地引入了广告网页等低质量文本。因此,在进行预训练之前,对网页进行筛选和处理显得尤为重要,这直接关系到最终数据的质量与预训练效果。
书籍
相较于其他语料,书籍中的文本内容往往更为正式与详实,篇幅也相对较长。这些书籍文本在大语言模型的学习过程中,发挥着非常重要的作用,它