数据准备——数据来源

最新推荐文章于 2025-04-03 10:01:39 发布

什么都不太懂的程序员

最新推荐文章于 2025-04-03 10:01:39 发布

阅读量1k

点赞数 23

分类专栏：大语言模型文章标签：语言模型

本文链接：https://blog.csdn.net/weixin_43915730/article/details/138304294

版权

本文探讨了大语言模型的预训练数据，包括通用文本（如网页、书籍）和专用文本（多语文本、科学文本、代码）。通用文本提供多样化的语言知识，而专用文本能提升特定任务性能。网页数据集如C4、Books3对模型的自然语言处理能力至关重要，而多语言数据、科学文本和代码数据则分别增强了模型的多语种理解、科学知识和代码生成能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

根据数据来源不同，预训练数据主要分为两种类型：通用文本数据和专用文本数据。通用文本数据涵盖了网页、书籍和对话文本等。由于通用文本数据规模较大、多样性强且易于获取，大多数大语言模型都会收集大量的通用文本数据，以增强其语言建模能力。此外，为了进一步提升大语言模型在特定专业任务上的表现，人们还将预训练语料的范围扩展至更专业的数据集，如多语数据、科学数据和代码数据等。
在这里插入图片描述

通用文本数据

绝大多数的大语言模型都选用了网页、书籍和对话文本等通用语料作为预训练数据。这些通用语料涵盖了多个主题类别的文本内容。接下来，我们将详细介绍两种重要的通用文本数据。

网页

随着互联网的普及与发展，网页的数据规模持续扩大，覆盖的内容类型也变得丰富多样。使用大规模网页文本数据进行预训练，有助于大语言模型获取多样化的语言知识，并增强其自然语言理解和生成的能力。为了便于使用网页数据进行预训练或相关研究，相关机构已经爬取并发布了多个大规模的网页数据集，包括 C4、RefinedWeb、CC-Stories等。然而，这些网页数据集中既包含了维基百科这种高质量文本，也不可避免地引入了广告网页等低质量文本。因此，在进行预训练之前，对网页进行筛选和处理显得尤为重要，这直接关系到最终数据的质量与预训练效果。