Task10：大模型之环境影响_大模型的环境问题-CSDN博客

本文链接：https://blog.csdn.net/yxg2012_04_06/article/details/135937608

10.1⽣命周期评估

1.本节主要基于Ligozat et al. (2021)的论⽂，从多个⻆度进⾏探讨语⾔模型/AI
对	⽓候影响的内容：
	1.从哲学⻆度来说，⼤多数关于⼈⼯智能和机器学习对环境影响的⼯作都集中在
	温室⽓体排放（受⽓候变化启发）上，系统⽅法来思考：
		1.对环境的全⾯影响（排放、⽔⾜迹）
		2.IT设备的整个⽣命周期（例如，⽣产、使⽤、寿命终⽌）
	2.从⽣命周期评估（LCA）的⻆度来说：
		1.⽣命周期评估（LCA）（ISO 14040和14044）为实现这⼀点提供了⼀个
		框架。
		2.需要“从系统的⻆度”来避免“⼀个问题的解决⽅案会产⽣⼏个新的、经常
		被忽视的问题”。
	3.从IT设备的⽣命周期来说：
		1.⽣产：
			1.原材料提取：提取矿⽯以及转化为⾦属的所有过程
			2.制造：包括制造设备的所有过程
			3.运输：设备运输过程
		2.使⽤：设备的实际能耗
		3.寿命终⽌：拆除、回收/处置设备
	4.⽣命周期中的注意事项做⼀下说明：
		1.⽣产
			1.我们没有针对GPU/TPU的⽣命周期评估
			2.法国仅使⽤CPU的数据中⼼：40%的温室⽓体排放源于⽣产阶段
			（Berthoud et al. 2020）
			3.数据中⼼的建⽴有很多⽬的，需要进⾏信⽤分配，以确定由于⼤型
			语⾔模型（由于情况变化很快，很难提前估计）所占的份额。
			4.示例：制造占iPhone 5总排放量的75%
		2.使⽤
			1.主要取决于能源（煤炭或⽔电）的碳强度
		3.⽣命的终结
			1.通常没有很好的记录
			2.80%的电⼦设备未被正式回收
		4.在使⽤阶段：
			1.数据：需要获取、⽣成和存储数据
			2.学习：训练⼤语⾔模型
				1.这包括实验和超参数调整。
				2.这是“⼀次性成本”，直到您需要再次更新模型。
			3.推理：在⽣产中运⾏模型
				1.示例：⾕歌每天收到56亿次搜索查询（来源）。
				2.通常部署的是从⼤模型中蒸馏出来的⼩得多的模型（如果特定
				于任务，则可以⼩得更多）。
				3.如果你需要进⾏多个预测（例如，情感、主题分类等），可以
				对句⼦进⾏⼀次编码（例如，BERT），并使⽤不同的任务特定的
				分类头。
	5.从环境影响的⻆度来说：
		1.温室⽓体排放：导致⽓候变化
		2.⽔⾜迹：淡⽔在⼀些地区是稀缺资源
			1.数据中⼼使⽤⽔进⾏冷却（需要电⼒）
			2.发电是第⼆⼤⽤⽔需求，处理⽔和废⽔需要电⼒
		3.对⼈类的危害：释放到环境中（空⽓、⽔、⼟壤）的化学物质，可导致
		癌症等。
			1.芯⽚制造在制造种产⽣有毒废料
		4.⾮⽣物资源枯竭
			1.化⽯燃料
			2.⽤于制造电⼦设备的矿物（锂、钴）。
		其他⼆阶效应：
		5.更⾼的效率创造更多的需求（反弹效应和杰⽂悖论）
		6.环境变化（荒漠化加速，灭绝率上升）
		7.冻⼟融化反过来⼜加速了温室⽓体排放
		8.芯⽚短缺导致汽⻋制造业停⼯

10.2⽓候变化

1.⽓温正在上升：
	1.⾃1900年以来，平均表⾯温度增加了2.14˚F（1.19˚C）。
	2.⾃2005年以来，出现了10个最热年份。
	3.温度随时间增加
	负⾯影响：
	1.⾃然灾害增加（极端热浪、洪⽔、⼲旱、ᰀ⽕）
	2.海平⾯上升破坏沿海社区和ᰀ⽣动物⽣态系统
	原因：
	1.排放到⼤⽓中的温室⽓体（⼆氧化碳、甲烷、⼀氧化⼆氮）锁住了太阳的热量
	2.⾃1970年以来增⻓了90%
	3.⼈类活动加速：
		1.燃烧化⽯燃料（煤、⽯油、天然⽓）发电、制造、运输（汽⻋、卡⻋、
		船舶、⻜机）
		2.种植作物（肥料）
		3.砍伐森林（例如，建⽴农场）
	4.每种温室⽓体都具有全球变暖潜⼒（GWP）：
		1.取决于（i）吸收的热ᰁ和（ii）它在⼤⽓中停留的时间。
		2.对于⼆氧化碳，全球升温潜能值=1（定义为参考值）。
		3.对于甲烷，100年全球升温潜能值=25。
		4.对于⼀氧化⼆氮，全球升温潜能值在100年内为300（因为它存在的时间
		太⻓了——121年）。
2.能源使⽤和温室⽓体排放
	1.碳强度（Carbon intensity:）：使⽤每千瓦时能源排放的碳量
		1.化⽯燃料（煤、天然⽓）产⽣的排放ᰁ最多（来⾃直接排放）
		2.如果考虑到整个⽣命周期（发电⼚建设、采矿、废物管理），其他绿⾊
		能源（太阳能、⻛能）也会产⽣排放
		3.在魁北克运⾏同样的任务（⽔电）的排放ᰁ将⽐爱沙尼亚（煤炭）少30倍
		4.取决于位置（那⾥有什么类型的发电⼚）
		5.取决于时间效应（季节、⼀天中的时间）
		6.电⼒交换意味着它更难追踪，负⾯影响往往在其他地⽅
		7.加利福尼亚州main Balancing Authority（BA）40%的排放是在其他
		地⽅产⽣的
	2.数据中⼼统计数字 (Md Abu Bakar Siddik et al., 2021)：
		1.2018年，全球数据中⼼⽤电ᰁ为2050亿千瓦时（占总⽤电量的1%）。
		2.在美国，2014年数据中⼼⽤电ᰁ占总⽤电ᰁ的1.8%。
		3.30%的数据中⼼位于美国。
		4.美国温室⽓体排放总ᰁ的0.5%来⾃于于数据中⼼。
		5.好消息：从2010年到2018年，计算ᰁ增加了550%，但电⼒消耗仅增加了
		6%（由于能源效率的提⾼）。

10.3估算训练模型的排放量

1.计算训练所需的能源使⽤ᰁ，从⽽计算温室⽓体排放量。
2.ML CO2 Impact Calculator，提供了⼀种基于硬件、使⽤的⼩时数、供应商和地
区来估计排放梁的简单⽅法。
3.Strubell et al., 2018，这是第⼀篇真正激发NLP社区对环境影响认识的论⽂。
	计算功耗（kWh）：
	![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/04d3969381c94e87891bdd9ba8b58597.png#pic_center)

	它们的平均值：
	![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/19df3f7aef134c39a07d432c0c0496a6.png#pic_center)
	结果：
		1.BERT-base（110M参数）：1438 lbs CO2eq
			1.NVIDIA在64个V100 GPU上训练79.2⼩时
		2.神经结构搜索（213M参数）以获得Evolved Transformer So etal. 
		(2019)：626155 lbs CO2eq
			1.基模型在⼀个TPUv2上训练需要10个⼩时（300K步）
			2.训练⼀共需要32623⼩时（979M步）
			3.1名乘客乘坐从纽约到旧⾦⼭的往返航班：1984 lbs CO2eq（0.9
			吨）
			4.汽⻋⽣命周期：126,000 lbs CO2eq
4.Patterson et al., 2021
	1.简单形式：
	![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/bf7cc8faac104af4b3778fe1659d8d14.png#pic_center)
		
		1.NVIDIA：80%的ML⼯作负载是推理，⽽不是训练
	许多设计决策：
		1.模型架构：Transformer与Evolved Transformer
		2.处理器：NVIDIA的P100与Google的TPU
		3.数据中⼼：平均（1.58）与⾕歌（1.11）
		4.能源供应组合（如煤炭、⽔电）：平均（0.429千克⼆氧化碳/千瓦时）
		与⾕歌（0.080千克⼆氧化碳/千瓦时）
			1.注：总额为0.478，净额为0.080
			2.扣除出售给其他公司的清洁能源
	2.对于训练：
	![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/74998fb97c604725b02362345ac757cc.png#pic_center)
	
	不同模型的估计值：
		1.T5：86 MWh，47t CO2eq
		2.GShard（⽤于机器翻译的MOE模型）：24 MWh，4.3t CO2eq
		3.Switch Transformer：179 MWh，59t CO2eq
		4.GPT3：1287 MWh，552t CO2eq
	反驳Strubell et al. (2019)的神经结构搜索的估计值：
		1.对于搜索⼩任务，18.7x太⾼
		2.神经结构搜索只需⼀次，然后每个⼈都可以使⽤EvolvedTransformer
		3.排放量被⾼估了88倍
	要点：
		1.如果可能的话，测ᰁ⽐在线计算更好
		2.⾕歌使⽤了12.2t 千瓦时（训练⾕歌最⼤的4个模型不到0.005%）
		3.这是⽐特币挖矿计算⽀出的1/10

10.4推荐的Python包

1.[Environment Impact Tracker ]([github.com]
(https://github.com/Breakend/experiment-impact-tracker))
2.[Carbon Tracker]((https://github.com/lfwa/carbontracker))
3.[CodeCarbon]([github.com](https://github.com/mlco2/codecarbon))

10.5总体总结：

1.环境影响是⼀个巨⼤的话题。⼀切都是相互联系的，所以很难得出⼀个⼲净的定量指	标。但要真正着眼于全局。
2.尽管如今⼤语⾔模型的还很少，但它正在快速增⻓。
3.⼤语⾔模型的通⽤性提供了节省成本的潜⼒（“⼀次性训练”并适⽤于许多不同的任
务）。但它们的成本要⾼得多，可能需要重新训练。
4.缓解措施：
	1.尝试在使⽤清洁能源的数据中⼼训练模型
	2.碳抵消的效果各不相同（森林种植活动产⽣单⼀种植）
	3.更⾼效的模型架构、训练程序、硬件（但要注意反弹效应）
5.在论⽂报告排放量：
	1.可以提⾼认识（想象⼀下，如果每⼀篇论⽂都能报告排放量）
	2.调整激励（⼈们⽬前关注准确性，但碳排放也很重要！）