Task04:大模型的数据

本文探讨了大型语言模型背后的训练数据来源,如CommonCrawl、WebText和OpenWebText,以及它们所反映的社会偏见和数据污染问题。作者强调了理解和记录数据集组成的重要性,以及数据集文档、数据生态和数据治理在确保模型公正性和透明度方面的作用。
摘要由CSDN通过智能技术生成

4.1⼤语⾔模型背后的数据

1.⼤型语⾔模型是在"原始⽂本"上进⾏训练的,为了实现⾼度的能⼒
(如语⾔和世界知识),⽂本应涵盖⼴泛的领域、类型、语⾔等。
2.⽹络是寻找这种⽂本的⾃然场所(但不是唯⼀场所),是我们主要关注的焦点。
3.Common Crawl已经成为许多模型如T5、GPT-3和Gopher的标准数据源。
4.Bender等⼈在2021年的对于训练数据的研究中指出:
	1.⼤规模数据在全球⼈⼝中的代表性仍然不均衡。
	2.⽹络数据过多地代表了来⾃发达国家的年轻⽤户。
	3.GPT-2的训练数据基于Reddit,根据⽪尤互联⽹研究的2016年调查,
	美国Reddit⽤户中有67%是男性,64%的年龄在18到29岁之间。
	4.维基百科的编者中只有8.8-15%是⼥性。
	5.⽹络上的骚扰可能会让某些⼈群(如跨性别者、神经发育不同的⼈)
	产⽣排斥感。
	6.过滤"不良词汇"可能进⼀步边缘化某些⼈群(如LGBT+)。
5.结论是:理解和记录⽤于训练⼤型语⾔模型的数据集的组成是⾄关重要的。

4.1.1WebText和OpenWebText数据集

1.WebText数据集被⽤于训练GPT-2模型。
	1.⽬标是获取既多样化⼜⾼质量的数据集。
	2.WebText的创建过程:
		1.抓取⾄少获得3个赞的所有外链,
		2.过滤掉维基百科,以便在基于维基百科的基准测试中进⾏评估,
		3.最终40GB的⽂本。
2.OpenWebText数据集在理念上复制了WebText的构建⽅法。
	1.OpenAI直接发布的WebText的副本,
	2.遵循了WebText的制作思路和⽅法,
	3.⽬的是尽可能地模拟和复现WebText的数据特性和结构。
	4.从Reddit提交的数据集中提取所有URL,
	5.使⽤Facebook的fastText过滤掉⾮英语内容,删除近乎重复的内容,
	6.最终38GB的⽂本。
4.2020年的RealToxicityPrompts研究中,
Gehman等⼈对这两个数据集进⾏了毒性分析:
	1.OpenWebText有2.1%的内容毒性得分>=50%,
	2.WebText有4.3%的内容毒性得分>=50%。
	3.新闻的可靠性与毒性负相关(Spearman ρ=−0.35),
	4.OpenWebText中有3%的内容来⾃被禁⽌或被隔离的subreddits,如/r/The_Donald和/r/WhiteRights。

4.1.2Colossal Clean Crawled Corpus(C4)

1.C4语料库被⽤来训练T5模型
	1.从2019年4⽉的CommonCrawl快照(1.4万亿个标记),
	2.移除了“bad words”,移除了代码(“{”),
	3.通过langdetect过滤掉了⾮英语⽂本,
	4.最终806GB的⽂本(1560亿个标记)。
2.Dodge等⼈在2021年对C4数据集进⾏了深⼊分析,主要涉及:
	1.元数据:来源,话语数据。
	2.包含的数据:由机器或⼈类创作的,社会偏⻅,数据污染。
	3.排除的数据:医疗或健康数据,⼈⼝身份。
	4.⼤量数据来⾃patents.google.com。
		1.⼀些⽂本是⾃动⽣成的,因此可能存在系统性的错误;
		2.另⼀些则是由光学字符识别(OCR)⾃动⽣成的。

4.1.3Benchmark的数据污染问题

1.基准数据,若基准数据在模型的训练数据中出现过,基准性能就可能会产⽣偏差。
2.在机器学习中,保证训练数据和测试数据的分离(我们称之为数据卫⽣)相对容易。
3.⼤型语⾔模型训练数据和基准数据都源⾃互联⽹,事先保证它们完全分离有些困难。
4.以XSum摘要数据集为例,
	1.输⼊的是⼀段关于⼀个前阿森纳⻔将的介绍,
	⽽输出则是这位⻔将被任命为技术主管的新闻:
		**Input**: _The 48-year-old former Arsenal
		goalkeeper played for the Royals for four years. He
		was appointed youth academy director in 2000 and has
		been director of football since 2003. A West Brom
		statement said: “He played a key role in the
		Championship club twice winning promotion to the
		Premier League in 2006 and 2012.
		**Output**: _West Brom have appointed Nicky Hammond
		as technical director, ending his 20-year
		association with Reading.
	2.存在两种类型的污染:
		1.⼀种是输⼊和输出污染,即输⼊和输出都出现在训练数据中,
		其⽐例在1.87%⾄24.88%之间。
		2.⼀种是只有输⼊在训练数据中出现,⽐如来⾃维基百科的QNLI数据集,
		这种污染的⽐例在1.8%⾄53.6%之间。
	3.这种数据污染并不是由于数据集的托管⽅式导致的,因为数据集通常会以JSON
	⽂件的形式存储,⽽不是⽹⻚。
	4.数据集也可能引发多种问题:
		1.⾸先,存在代表性损害的可能,例如,与特定族群相关的词汇
		(如"犹太"和"阿拉伯")与积极情绪词汇的共现频率存在差异,
		这可能反映了模型的某种偏⻅。
		2.其次,数据集的选择和过滤也可能导致分配损害。以过滤版的Common
		 Crawl(即C4)为例,只有⼤约10%的内容被保留。然⽽,涉及性取向的内
		 容更容易被过滤掉,⽽其中⼀部分是并⽆冒犯之意的。某些特定的⽅⾔也更
		 容易被过滤,例如⾮洲裔美国⼈的英语和⻄班⽛裔的英语,相⽐之下,
		 ⽩⼈美国英语的过滤率就要低得多。

4.1.4GPT-3的数据集

1.GPT-3的数据集主要源⾃Common Crawl,⼜类似于⼀个参考数据集——WebText。
2.GPT-3下载了41个分⽚的Common Crawl数据(2016-2019年)。
3.GPT-3采⽤了模糊去重的⽅法。
4.GPT-3扩⼤了数据来源的多样性(包括WebText2、Books1、Books2维基百科)。
5.训练过程中Common Crawl被降采样,数据集中占82%,只贡献了60%的数据。
6.EleutherAI,发布了⼀种语⾔模型的数据集,名为The Pile,
其核⼼理念是从较⼩的⾼质量数据源(如学术和专业资源)中获取数据。

4.1.5The Pile数据集

1.The Pile数据集包含了825GB的英⽂⽂本,由22个⾼质量数据集组成。
2.数据集训练GPT-2Pile(1.5B参数)与GPT-3数据集训练的GPT-3(175B参数)
⽐较,The Pile包含了⼤量GPT-3数据集未能很好覆盖的信息。
3.数据的过滤和策划(如OpenWebText,C4,GPT-3数据集)是必要的,
但可能会导致偏⻅。
4.策划⾮⽹络的⾼质量数据集(如The Pile)是有前途的,
但也需要仔细记录和审查这些数据集。

4.2数据集⽂档

1.探讨数据的⼀般原则
2.Gebru等⼈在2018年发表的论⽂提出了围绕⽂档的社区规范。
3.Bender和Friedman在2018年的论⽂《数据声明》提出更适⽤于语⾔数据集的框架。
4.这两个都在强调透明度。
5.数据⽂档的主要⽬的:
	1.让数据集的创建者反思他们的决策,在创建数据集过程中可能产⽣的潜在危
	害,⽐如社会偏⻅;
	2.让数据集的使⽤者了解何时可以使⽤数据集,何时不应使⽤数据集。
6.数据集的⽣命周期:
	1.数据集集的创建:数据集的创建动机,谁是数据集的创建者,
	数据集的创建是由谁资助的。
	2.在数据集的组成部分,数据集中的实例代表什么,是否有缺失信息,
	是否包含机密数据等。
	3.在收集过程中,每个实例的数据是如何获取的,谁参与了数据收集,
	如何获得报酬的,是否进⾏了道德审查等。
	4.在预处理、清理和标记阶段,这些⼯作是否已经完成,	是否有相应的软件可供
	使⽤。
	5.在数据集的使⽤⽅⾯,数据集是否已经被⽤于某些任务,是否有不适合使⽤该
	数据集的任务。
	6.在分发阶段,数据集将如何分发,是否有第三⽅对数据施加了知识产权或其他
	的限制。
	7.在维护阶段,谁会负责维护数据集,数据集是否会更新。
7.⾃然语⾔处理(NLP)数据集的⼯作,数据声明,还涵盖了其他⽅⾯,例如策划理,
语⾔多样性,说话⼈和注释者的⼈⼝统计学信息等。以"The Pile"数据集为例,以便
更好地理解这些问题。

4.3数据⽣态

1.在数据管理⽅⾯,在机器学习研究中通常认为数据集是固定的对象,收集起来之后,
直接投⼊到训练算法中。
2.在数据库领域,有⼀整个⼦领域正在思考数据是如何产⽣和使⽤的⽣态系统,这在⼯
业领域特别相关。
3.在基础模型报告的数据部分讨论了一些问题
	1.数据治理主要关注⼀个组织如何创建数据、维护其质量和安全性。
	2.BigScience的数据治理⼯作组正在开发⼀个框架,以负责任地策划⾼质量的
	数据源,⽽不是⽆差别地爬取⽹⻚。
4.数据尊严是⼀个源⾃微软和RadicalxChange的概念,试图思考数据的本质。
5.在个体层⾯上,数据没有价值,但在集体层⾯上,具有巨⼤的价值。
6.Data Shapley,在机器学习的背景下给定数据点赋予价值的框架。
7.现状是,⼈们免费放弃他们的数据,⼤公司从中获取⼤量的价值和权⼒。
8.数据联盟,介于数据⽣产者和数据购买者之间的中间组织,能够代表数据⽣产者进⾏
集体谈判。
  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值