大模型理论学习记录（四）

最新推荐文章于 2024-07-15 12:30:08 发布

weixin_46791103

最新推荐文章于 2024-07-15 12:30:08 发布

阅读量69

点赞数

分类专栏：大模型文章标签：学习人工智能语言模型

本文链接：https://blog.csdn.net/weixin_46791103/article/details/135027601

版权

大模型专栏收录该内容

7 篇文章 0 订阅

订阅专栏

大模型理论学习记录（四）

大模型的数据

WebText数据集

WebText数据集被用于训练GPT-2模型。其目标是获取既多样化又高质量的数据集。

OpenWebText数据集

OpenWebText数据集在理念上复制了WebText的构建方法。也就是说，虽然OpenWebText并非OpenAI直接发布的WebText的副本，但它遵循了WebText的制作思路和方法，目的是尽可能地模拟和复现WebText的数据特性和结构。

Colossal Clean Crawled Corpus（C4）语料库

C4语料库被用来训练T5模型。

GPT-3的数据集

GPT-3的数据集主要源自Common Crawl，而Common Crawl又类似于一个参考数据集——WebText。GPT-3下载了41个分片的Common Crawl数据（2016-2019年）。通过训练一个二元分类器来预测WebText与Common Crawl的区别，如果分类器认为文档更接近WebText，那么这个文档就有更大的概率被保留。在处理数据时，GPT-3采用了模糊去重的方法（检测13-gram重叠，如果在少于10个训练文档中出现，则移除窗口或文档），并从基准数据集中移除了数据。此外，GPT-3也扩大了数据来源的多样性（包括WebText2、Books1、Books2以及维基百科）。在训练过程中，Common Crawl被降采样，它在数据集中占82%，但只贡献了60%的数据。

The Pile数据集

The Pile数据集核心理念是从较小的高质量数据源（如学术和专业资源）中获取数据，包含了825GB的英文文本，由22个高质量数据集组成。当用这个数据集训练GPT-2Pile（1.5B参数）并与用GPT-3数据集训练的GPT-3（175B参数）进行比较时，研究者们发现，The Pile包含了大量GPT-3数据集未能很好覆盖的信息。他们还分析了贬损内容、性别/宗教偏见等问题，结果与以前的研究大致相同。

总的来说，网络和私有数据的总量是巨大的，但是简单地将所有数据（甚至是Common Crawl）都用于训练并不能有效地利用计算资源。数据的过滤和策划（如OpenWebText，C4，GPT-3数据集）是必要的，但可能会导致偏见。策划非网络的高质量数据集（如The Pile）是有前途的，但也需要仔细记录和审查这些数据集。