Task10:大模型之环境影响

10.1⽣命周期评估

1.本节主要基于Ligozat et al. (2021)的论⽂,从多个⻆度进⾏探讨语⾔模型/AI
对	⽓候影响的内容:
	1.从哲学⻆度来说,⼤多数关于⼈⼯智能和机器学习对环境影响的⼯作都集中在
	温室⽓体排放(受⽓候变化启发)上,系统⽅法来思考:
		1.对环境的全⾯影响(排放、⽔⾜迹)
		2.IT设备的整个⽣命周期(例如,⽣产、使⽤、寿命终⽌)
	2.从⽣命周期评估(LCA)的⻆度来说:
		1.⽣命周期评估(LCA)(ISO 14040和14044)为实现这⼀点提供了⼀个
		框架。
		2.需要“从系统的⻆度”来避免“⼀个问题的解决⽅案会产⽣⼏个新的、经常
		被忽视的问题”。
	3.从IT设备的⽣命周期来说:
		1.⽣产:
			1.原材料提取:提取矿⽯以及转化为⾦属的所有过程
			2.制造:包括制造设备的所有过程
			3.运输:设备运输过程
		2.使⽤:设备的实际能耗
		3.寿命终⽌:拆除、回收/处置设备
	4.⽣命周期中的注意事项做⼀下说明:
		1.⽣产
			1.我们没有针对GPU/TPU的⽣命周期评估
			2.法国仅使⽤CPU的数据中⼼:40%的温室⽓体排放源于⽣产阶段
			(Berthoud et al. 2020)
			3.数据中⼼的建⽴有很多⽬的,需要进⾏信⽤分配,以确定由于⼤型
			语⾔模型(由于情况变化很快,很难提前估计)所占的份额。
			4.示例:制造占iPhone 5总排放量的75%
		2.使⽤
			1.主要取决于能源(煤炭或⽔电)的碳强度
		3.⽣命的终结
			1.通常没有很好的记录
			2.80%的电⼦设备未被正式回收
		4.在使⽤阶段:
			1.数据:需要获取、⽣成和存储数据
			2.学习:训练⼤语⾔模型
				1.这包括实验和超参数调整。
				2.这是“⼀次性成本”,直到您需要再次更新模型。
			3.推理:在⽣产中运⾏模型
				1.示例:⾕歌每天收到56亿次搜索查询(来源)。
				2.通常部署的是从⼤模型中蒸馏出来的⼩得多的模型(如果特定
				于任务,则可以⼩得更多)。
				3.如果你需要进⾏多个预测(例如,情感、主题分类等),可以
				对句⼦进⾏⼀次编码(例如,BERT),并使⽤不同的任务特定的
				分类头。
	5.从环境影响的⻆度来说:
		1.温室⽓体排放:导致⽓候变化
		2.⽔⾜迹:淡⽔在⼀些地区是稀缺资源
			1.数据中⼼使⽤⽔进⾏冷却(需要电⼒)
			2.发电是第⼆⼤⽤⽔需求,处理⽔和废⽔需要电⼒
		3.对⼈类的危害:释放到环境中(空⽓、⽔、⼟壤)的化学物质,可导致
		癌症等。
			1.芯⽚制造在制造种产⽣有毒废料
		4.⾮⽣物资源枯竭
			1.化⽯燃料
			2.⽤于制造电⼦设备的矿物(锂、钴)。
		其他⼆阶效应:
		5.更⾼的效率创造更多的需求(反弹效应和杰⽂悖论)
		6.环境变化(荒漠化加速,灭绝率上升)
		7.冻⼟融化反过来⼜加速了温室⽓体排放
		8.芯⽚短缺导致汽⻋制造业停⼯

10.2⽓候变化

1.⽓温正在上升:
	1.⾃1900年以来,平均表⾯温度增加了2.14˚F(1.19˚C)。
	2.⾃2005年以来,出现了10个最热年份。
	3.温度随时间增加
	负⾯影响:
	1.⾃然灾害增加(极端热浪、洪⽔、⼲旱、ᰀ⽕)
	2.海平⾯上升破坏沿海社区和ᰀ⽣动物⽣态系统
	原因:
	1.排放到⼤⽓中的温室⽓体(⼆氧化碳、甲烷、⼀氧化⼆氮)锁住了太阳的热量
	2.⾃1970年以来增⻓了90%
	3.⼈类活动加速:
		1.燃烧化⽯燃料(煤、⽯油、天然⽓)发电、制造、运输(汽⻋、卡⻋、
		船舶、⻜机)
		2.种植作物(肥料)
		3.砍伐森林(例如,建⽴农场)
	4.每种温室⽓体都具有全球变暖潜⼒(GWP):
		1.取决于(i)吸收的热ᰁ和(ii)它在⼤⽓中停留的时间。
		2.对于⼆氧化碳,全球升温潜能值=1(定义为参考值)。
		3.对于甲烷,100年全球升温潜能值=25。
		4.对于⼀氧化⼆氮,全球升温潜能值在100年内为300(因为它存在的时间
		太⻓了——121年)。
2.能源使⽤和温室⽓体排放
	1.碳强度(Carbon intensity:):使⽤每千瓦时能源排放的碳量
		1.化⽯燃料(煤、天然⽓)产⽣的排放ᰁ最多(来⾃直接排放)
		2.如果考虑到整个⽣命周期(发电⼚建设、采矿、废物管理),其他绿⾊
		能源(太阳能、⻛能)也会产⽣排放
		3.在魁北克运⾏同样的任务(⽔电)的排放ᰁ将⽐爱沙尼亚(煤炭)少30倍
		4.取决于位置(那⾥有什么类型的发电⼚)
		5.取决于时间效应(季节、⼀天中的时间)
		6.电⼒交换意味着它更难追踪,负⾯影响往往在其他地⽅
		7.加利福尼亚州main Balancing Authority(BA)40%的排放是在其他
		地⽅产⽣的
	2.数据中⼼统计数字 (Md Abu Bakar Siddik et al., 2021):
		1.2018年,全球数据中⼼⽤电ᰁ为2050亿千瓦时(占总⽤电量的1%)。
		2.在美国,2014年数据中⼼⽤电ᰁ占总⽤电ᰁ的1.8%。
		3.30%的数据中⼼位于美国。
		4.美国温室⽓体排放总ᰁ的0.5%来⾃于于数据中⼼。
		5.好消息:从2010年到2018年,计算ᰁ增加了550%,但电⼒消耗仅增加了
		6%(由于能源效率的提⾼)。

10.3估算训练模型的排放量

1.计算训练所需的能源使⽤ᰁ,从⽽计算温室⽓体排放量。
2.ML CO2 Impact Calculator,提供了⼀种基于硬件、使⽤的⼩时数、供应商和地
区来估计排放梁的简单⽅法。
3.Strubell et al., 2018,这是第⼀篇真正激发NLP社区对环境影响认识的论⽂。
	计算功耗(kWh):
	![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/04d3969381c94e87891bdd9ba8b58597.png#pic_center)

	它们的平均值:
	![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/19df3f7aef134c39a07d432c0c0496a6.png#pic_center)
	结果:
		1.BERT-base(110M参数):1438 lbs CO2eq
			1.NVIDIA在64个V100 GPU上训练79.2⼩时
		2.神经结构搜索(213M参数)以获得Evolved Transformer So etal. 
		(2019):626155 lbs CO2eq
			1.基模型在⼀个TPUv2上训练需要10个⼩时(300K步)
			2.训练⼀共需要32623⼩时(979M步)
			3.1名乘客乘坐从纽约到旧⾦⼭的往返航班:1984 lbs CO2eq(0.9
			吨)
			4.汽⻋⽣命周期:126,000 lbs CO2eq
4.Patterson et al., 2021
	1.简单形式:
	![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/bf7cc8faac104af4b3778fe1659d8d14.png#pic_center)
		
		1.NVIDIA:80%的ML⼯作负载是推理,⽽不是训练
	许多设计决策:
		1.模型架构:Transformer与Evolved Transformer
		2.处理器:NVIDIA的P100与Google的TPU
		3.数据中⼼:平均(1.58)与⾕歌(1.11)
		4.能源供应组合(如煤炭、⽔电):平均(0.429千克⼆氧化碳/千瓦时)
		与⾕歌(0.080千克⼆氧化碳/千瓦时)
			1.注:总额为0.478,净额为0.080
			2.扣除出售给其他公司的清洁能源
	2.对于训练:
	![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/74998fb97c604725b02362345ac757cc.png#pic_center)
	
	不同模型的估计值:
		1.T5:86 MWh,47t CO2eq
		2.GShard(⽤于机器翻译的MOE模型):24 MWh,4.3t CO2eq
		3.Switch Transformer:179 MWh,59t CO2eq
		4.GPT3:1287 MWh,552t CO2eq
	反驳Strubell et al. (2019)的神经结构搜索的估计值:
		1.对于搜索⼩任务,18.7x太⾼
		2.神经结构搜索只需⼀次,然后每个⼈都可以使⽤EvolvedTransformer
		3.排放量被⾼估了88倍
	要点:
		1.如果可能的话,测ᰁ⽐在线计算更好
		2.⾕歌使⽤了12.2t 千瓦时(训练⾕歌最⼤的4个模型不到0.005%)
		3.这是⽐特币挖矿计算⽀出的1/10

10.4推荐的Python包

1.[Environment Impact Tracker ]([github.com]
(https://github.com/Breakend/experiment-impact-tracker))
2.[Carbon Tracker]((https://github.com/lfwa/carbontracker))
3.[CodeCarbon]([github.com](https://github.com/mlco2/codecarbon))

10.5总体总结:

1.环境影响是⼀个巨⼤的话题。⼀切都是相互联系的,所以很难得出⼀个⼲净的定量指	标。但要真正着眼于全局。
2.尽管如今⼤语⾔模型的还很少,但它正在快速增⻓。
3.⼤语⾔模型的通⽤性提供了节省成本的潜⼒(“⼀次性训练”并适⽤于许多不同的任
务)。但它们的成本要⾼得多,可能需要重新训练。
4.缓解措施:
	1.尝试在使⽤清洁能源的数据中⼼训练模型
	2.碳抵消的效果各不相同(森林种植活动产⽣单⼀种植)
	3.更⾼效的模型架构、训练程序、硬件(但要注意反弹效应)
5.在论⽂报告排放量:
	1.可以提⾼认识(想象⼀下,如果每⼀篇论⽂都能报告排放量)
	2.调整激励(⼈们⽬前关注准确性,但碳排放也很重要!)
  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值