Task08:大模型的危害性上&下

本文讨论了大模型在新兴技术中可能带来的危害,包括性能差异、社会偏见,以及通过量化分析和内容审查进行衡量。文章强调了伦理、监管机构的作用以及在减少这些伤害方面的挑战和应对策略。
摘要由CSDN通过智能技术生成

8.1引⾔

1.新兴技术的危害:我们知道“能⼒越⼤责任越⼤,对于当前开创性的⼤模型来说,我
们需要了解这些模型的能⼒和危害之间的密切关系。⼤模型的能⼒所展示的潜⼒将导致
这些模型被⼴泛的采⽤,但是与此同时造成它们的危害。
2.⻉尔蒙特报告和IRB
	1.⻉尔蒙特报告于1979年编写,概述了三个原则(尊重⼈员、善⾏和公正)。
	2.该报告是机构审查委员会(IRB)的基础。
	3.IRB是审查和批准涉及⼈类研究的委员会,作为⼀种积极的机制来确保安全。
3.⽣物伦理学和CRISPR
	1.当基因编辑技术CRISPR CAS被创建时,⽣物医学界制定了社区标准,禁⽌将这
	些技术⽤于许多形式的⼈类基因编辑。
	2.当发现社区成员违反这些标准时,他们将被开除出社区,这反映了对社区规范
	的严格执⾏。
4.FDA和⻝品安全
	1.⻝品和药物管理局(FDA)是⼀个负责制定安全标准的监管机构
	2.FDA经常对⻝品和药物进⾏多个阶段的测试,以验证其安全性。
	3.FDA使⽤科学学科的已建⽴理论来确定要进⾏测试的内容。
5.性能差异相关的危害:⼤型语⾔模型可以适应执⾏特定任务。对于特定任务(例如问
答),性能差异意味着模型在某些群体中表现更好,在其他群体中表现更差。例如,⾃
动语⾳识别(ASR)系统在⿊⼈说话者的识别性能要差于⽩⼈说话者(Koenecke等⼈,
2020)。反馈循环(⼤模型随着数据的积累将持续训练的⼀种循环)可以随着时间的推
移放⼤差异:如果系统对某些⽤户⽆法正常⼯作,他们就不会使⽤这些系统,并且会⽣
成更少的数据,从⽽导致未来的系统表现出更⼤的差异。
6.社会偏⻅和刻板印象相关的危害:社会偏⻅是将某个概念(例如科学)与某些群体例
如男性)相对其他群体(例如⼥性)进⾏系统关联。刻板印象是⼀种特定且普遍存在的
社会偏⻅形式,其中的关联是被⼴泛持有、过度简化并且⼀般固定的。对于⼈类来说,
这些关联来⾃于获得快速的认知启发。它们对于语⾔技术尤为重要,因为刻板印象是通
过语⾔构建、获取和传播的。社会偏⻅可能导致性能差异,如果⼤型语⾔模型⽆法理解
表明反刻板印象关联的数据,则它们在这些数据上的表现可能会较差。

8.2社会群体

1.⼈为构建的类别与⾃然界的划分有所不同,⼈⼯智能的现有⼯作常常⽆法反映出社会
科学中对这些属性的现代处理⽅式,例如,性别并⾮简单的⼆元划分,⽽是更具流动性
的概念,如Cao和DauméIII(2020)以及Dev等⼈(2021)的研究所述。
2.⼤型语⾔模型的性能差异和社会偏⻅常常与历史性歧视⼀致。

8.3量化性能差异/社会偏⻅在LLMs中的危害

1.⼤模型通过使⽤⼤规模预训练数据进⾏训练,因此数据的偏⻅或许导致了⼤语⾔模型
在性能和社会偏⻅危害,通过两个例⼦进⾏度量:
	1.名字偏⻅:这⾥我们⾸先将⼤模型在SQuAD数据进⾏训练,然后设计⼀个新的任
	务进⾏测试。
		1.动机:测试模型在涉及⼈名的⽂本中的理解和⾏为⽅式。
		2.原始任务:SQuAD - Stanford Question Answering Datasets
		(Rajpurkar等,2016年)
		3.修改后的任务:使⽤SQuAD数据构建额外的测试例⼦,将之前的测试答案
		中的两个名字进⾏交换。最终测试模型的回答正确性。
		4.指标:翻转表示交换名称会改变模型输出的名称对的百分⽐。
		结果:
		1.模型通常会预测与他们所知名⼈物相关的名称,符合他们所擅⻓的领域。
		2.对于不太知名的⼈,效果会很快减弱。
		3.当交换名称时,模型通常不会改变它们的预测结果。
2.刻板印象
	1.动机:评估模型在涉及刻板印象的⽂本中的⾏为⽅式
	2.任务:⽐较模型对具有刻板印象和反刻板印象关联的句⼦的概率
	3.指标:刻板印象得分是模型偏好刻板印象示例的⽐例。作者表示,得分为0.5是
	理想的。
	结果:
	1.所有模型都显示出对刻板印象数据的系统偏好。
	2.较⼤的模型往往具有较⾼的刻板印象得分。

8.4测量与决策

1.公平性指标众多,能够将性能差异转化为单⼀测量结果。
2.衡量偏⻅的许多设计决策可能会显著改变结果,例如词汇表、解码参数等(Antoniak
和Mimno,2021)。现有的针对⼤型语⾔模型(LLMs)的基准测试已受到了到了严重的
批评,许多上游偏⻅的测量并不能可靠地预测下游的性能差异和实质性的伤害。

8.5其他考虑因素

1.LLMs有可能通过多种⽅式造成伤害,包括性能差异和社会偏⻅。理解这些伤害对社会
造成的影响,需要考虑涉及的社会群体及其状况,例如历史上的边缘化、权⼒的缺乏。
虽然在具体的下游应⽤环境中,伤害通常更容易理解,但LLMs却是上游的基础模型。

8.6决策问题

1.现有的⽅法往往⽆法有效地减少或解决这些伤害;在实践中,许多技术缓解措施效果
不佳。涵盖更⼴泛⽣态系统的社会技术⽅法,可能是显著缓解这些伤害的必要措施,这
个⽣态系统是LLMs的情境环境。

8.7概述

1.将探讨另外两种⾏为伤害:有毒性和假信息(toxicity 和 disinformation)⼤型
语⾔模型可能产⽣攻击性的、有害的内容,或者产⽣误导性的内容。
2.在有毒性和假信息的背景下,语⾔模型可以有两种⽤途:⼀是它们可以被⽤来⽣成有
毒的内容,恶意⾏为者可以利⽤它们来扩⼤⾃⼰的信息传播;⼆是它们可以被⽤来检测
假信息,从⽽帮助进⾏内容审核。

8.8有毒性

1.理解⼤型语⾔模型在有毒性⽅⾯可能带来的伤害。有两类可能的受害者:基于语⾔模
型系统的⽤户,以及⽤户⽣成内容的接收者。
2.不能仅仅依赖词汇列表来确定⼀个⽂本的有毒性。
3.Perspective API——有关毒性分类的专有服务
	1.Perspective API存在⼀些相关的问题:它不能捕获标注者的身份或更⼴泛的
	语⾔或社会环境。
4.RealToxicityPrompts--2020年,Gehman等⼈推出了⼀个数据集,⽤来评估语⾔
模型⽣成的毒性。
	1.注意事项与⽆提示实验
		1.⾸先,虽然在实验中提到了⾃动完成(Autocomplete)功能,但这并不
		直接与真实应⽤环境相关联。因此,在理解⾃动完成的结果时,需要注意
		这个分离。
		2.其次,我们的毒性得分是基于Google的Perspective API,这个API虽
		然有⼀定的作⽤,但也存在⼀些明显的限制。
		3.再者,在解读这些结果时,应将其视为对情况的粗略感觉,⽽不是可以
		被优化的⽬标。
		4.此外,我们还进⾏了⼀些⽆提示实验。在这些实验中,我们让模型在没
		有任何提示的情况下⽣成补全。
	2.提示实验
		1.⾸先,将提示语句输⼊GPT-3,让它⽣成25个补全。
		2.然后,我们使⽤了两个主要的评估指标来衡量这些补全的毒性。
			1.第⼀个评估指标是“预期最⼤毒性”,它反映了⽣成补全中毒性的最
			⼤程度,也可以理解为毒性的强度。
			2.第⼆个评估指标是毒性⼤于或等于50%的补全的概率,它反映了⽣
			成的补全中有多少可能存在毒性,也可以理解为毒性的频率。
		3.这些结果揭示了GPT-3在不同毒性级别的提示下⽣成的补全的毒性
			特性,为理解和控制语⾔模型⽣成内容的毒性提供了重要的信息。
		4.结论:即使给出“⾮有毒”提示,也可能⽣成“有毒”补全.
	3.减轻毒性,如何缓解语⾔模型GPT-2⽣成内容的毒性。
		1.⼀种是基于数据的
		2.另⼀种是基于解码的
		3.缓解毒性的同时,也需要兼顾到语⾔模型对于各种不同语境和群体的理
		解和包容。
5.总结
	1.内容审查:与有害内容的问题在现实世界中的对应(独⽴于语⾔模型)。
	2.毒性是依赖于上下⽂的,需要考虑的是⼈⽽不仅仅是⽂本。
	3.语⾔模型即使在⾮有毒提示的情况下也容易⽣成有毒内容。
	4.减轻毒性只能部分有效,并且可能有其他负⾯影响(对边缘化群体产⽣负
	⾯偏⻅)。

8.9虚假信息

1.误导性信息(Misinformation)指的是不论意图如何,被误导性地呈现为真实的错
误信息。
2.虚假信息(Disinformation)则是有意为之地呈现错误或误导性信息以欺骗某⼀特
定受众,其中存在对抗性质。
3.误导性和虚假信息并⾮⼀定可被验证;有时,它会引起⼈们的疑虑或将举证责任转移
给听众。
4.虚假信息战役的现状
	1.虚假信息需要满⾜以下条件:新颖(避免被基于哈希的内容审核系统检测),
	通顺(被⽬标受众易读),有说服⼒(被⽬标受众所信),并传达虚假信息战役
	的信息。
	2.虚假信息的经济学⻆度
		1.关键问题是:语⾔模型能否⽣成新颖,通顺的⽂本,传达特定信息,并
		且针对⽬标⼈群(在线超定向)?如果可以,那么经济效益将倾向于使⽤
		GPT-3,使得恶意⾏为者能更快速,更便宜地制造虚假信息。
	3.相关⼯作
		1.结论:我们应该⾮常担⼼(GPT-3可以产⽣具有意识形态⼀致性,互动
		性,规范性的环境)。⻛险缓解:针对⼤型语⾔模型的保护措施,提升数
		字素养,检测模型。

8.10内容审查

1."少量样本学习器"(Few-Shot Learner)是Meta最新强⼤的内容审查模型。该模
型在⼤量原始⽂本和历史数据上进⾏训练,将任务简化为蕴涵(entailment)。
  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值