数据准备——数据来源

本文探讨了大语言模型的预训练数据,包括通用文本(如网页、书籍)和专用文本(多语文本、科学文本、代码)。通用文本提供多样化的语言知识,而专用文本能提升特定任务性能。网页数据集如C4、Books3对模型的自然语言处理能力至关重要,而多语言数据、科学文本和代码数据则分别增强了模型的多语种理解、科学知识和代码生成能力。
摘要由CSDN通过智能技术生成

根据数据来源不同,预训练数据主要分为两种类型:通用文本数据和专用文本数据。通用文本数据涵盖了网页、书籍和对话文本等。由于通用文本数据规模较大、多样性强且易于获取,大多数大语言模型都会收集大量的通用文本数据,以增强其语言建模能力。此外,为了进一步提升大语言模型在特定专业任务上的表现,人们还将预训练语料的范围扩展至更专业的数据集,如多语数据、科学数据和代码数据等。
在这里插入图片描述

通用文本数据

绝大多数的大语言模型都选用了网页、书籍和对话文本等通用语料作为预训练数据。这些通用语料涵盖了多个主题类别的文本内容。接下来,我们将详细介绍两种重要的通用文本数据。

网页

随着互联网的普及与发展,网页的数据规模持续扩大,覆盖的内容类型也变得丰富多样。使用大规模网页文本数据进行预训练,有助于大语言模型获取多样化的语言知识,并增强其自然语言理解和生成的能力。为了便于使用网页数据进行预训练或相关研究,相关机构已经爬取并发布了多个大规模的网页数据集,包括 C4、RefinedWeb、CC-Stories等。然而,这些网页数据集中既包含了维基百科这种高质量文本,也不可避免地引入了广告网页等低质量文本。因此,在进行预训练之前,对网页进行筛选和处理显得尤为重要,这直接关系到最终数据的质量与预训练效果。

书籍

相较于其他语料,书籍中的文本内容往往更为正式与详实,篇幅也相对较长。这些书籍文本在大语言模型的学习过程中,发挥着非常重要的作用,它

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值