R语言学习之深圳市空气质量分析

平平无奇秃头小天才

已于 2022-03-23 21:22:03 修改

阅读量3.9k

点赞数 3

分类专栏： R语言数据分析文章标签： r语言开发语言 big data

于 2022-01-24 11:51:10 首次发布

本文链接：https://blog.csdn.net/weixin_46490924/article/details/122664115

版权

R语言数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、简介

略

二、研究背景

略。

三、数据来源

此次实验共使用数据集两份，分别为中国气象检测网爬取的深圳2015年至2020年空气监测数据与深圳市数据开放平台公开空气质量日报数据。

1.数据一：空气监测数据来源

2015年-2020年空气监测数据由于网站禁止使用右键，因此R语言数据采集程序运行失败，Python爬虫程序找不到对应数据所在目录，因此采用后裔采集器软件爬取数据，最终爬取成功，数据集共95条数目集，11列属性值。表 2‑1 2015年至2020年空气监测数据，，为数据集节选。

表 2‑1 2015年至2020年空气监测数据

month	Web	AQI	are	leval	PM2.5	PM10	CO	SO2	NO2	O3
13-Dec	https:/	103	21	5	60	21~173	35	51	1.433	47
14-Jan	https:/	82	104	64	65	43~130	119	32	1.248	15
14-Feb	https:/	47	45	12	49	20~66	110	90	1.157	60
14-Mar	https:/	56	77	1	29	27~90	29	8	0.919	15
14-Apr	https:/	52	18	3	92	29~71	5	75	0.92	100
14-May	https:/	34	70	77	20	22~51	27	10	0.874	111
14-Jun	https:/	42	109	97	8	23~82	15	92	0.943	70
14-Jul	https:/	44	84	24	61	26~105	19	53	1.097	16
14-Aug	https:/	36	42	75	64	24~73	113	63	0.929	24
14-Sep	https:/	52	11	13	97	27~125	30	37	1.13	51
14-Oct	https:/	73	14	8	117	52~116	58	57	1.213	111
14-Nov	https:/	62	98	7	77	38~93	6	94	1.187	100
14-Dec	https:/	70	112	2	97	26~99	12	78	1.223	102
15-Jan	https:/	70	79	47	17	30~131	117	118	1.226	18
15-Feb	https:/	67	1	84	112	25~131	34	67	1.082	10
15-Mar	https:/	49	88	116	44	32~70	19	54	0.977	35
15-Apr	https:/	52	106	95	5	25~95	40	25	0.853	25
15-May	https:/	36	58	79	5	24~76	119	25	0.829	103
15-Jun	https:/	28	67	68	99	23~37	91	88	0.743	114

2.数据二：空气质量日报数据

2015年国务院印发促进大数据发展行动纲要的通知中明确指出，大数据时代数据理应公开化在此基础上各个省、市直属单位建立开放数据平台，提供开放数据接口。在深圳市数据开放平台获取到空气质量日报数据用于此次研究报告。数据集共90000条目，9项属性值。表 2‑2 深圳市空气质量日报为数据集节选。

（https://opendata.sz.gov.cn/data/dataSet/toDataSet）

表 2‑2 深圳市空气质量日报

序号	检测时间	监测点名称	指数类别	空气污染指数（AQI）	指数级别	指数颜色	首要污染物
00f60ce3-db7c-414e-80e0-8b24611e747d	2019/2/14 0:00	华侨城	优	39	一级	绿色	-
00ffda7b-8094-464c-ae73-9659db468def	2017/3/28 0:00	葵涌	良	88	二级	黄色	臭氧
0100f95a-f6dd-44cf-a1b8-91e65cadf62d	2017/2/6 0:00	盐田	优	50	一级	绿色	-
0111a697-b8d4-453d-bbe0-b280069e5d51	2019/4/14 0:00	葵涌	优	42	一级	绿色	-
0111eae0-d8df-4573-aed9-0be536ad69ed	2015/2/18 0:00	观澜	良	79	二级	黄色	臭氧
0125ca90-c48d-4424-b5bf-d9b6a1842cde	2019/3/29 0:00	西乡	优	37	一级	绿色	-

四、相关技术概述

1.后裔采集器

后羿采集器是由前谷歌搜索技术团队基于人工智能技术研发的新一代网页采集软件。该软件功能强大，操作简单，是为广大无编程基础的产品、运营、销售、金融、新闻、电商和数据分析从业者，以及政府机关和学术研究等用户量身打造的一款产品。后羿采集器不仅能够进行数据的自动化采集，而且在采集过程中还可以对数据进行清洗。在数据源头即可实现多种内容的过滤。

通过使用后羿采集器，用户能够快速、准确地获取海量网页数据，从而彻底解决了人工收集数据所面临的各种难题，降低了获取信息的成本，提高了工作效率。

2.R语言

R语言作为统计领域广泛应用的S语言的分支，是一种集统计分析与图形显示于一体的，用来进行数据探索、统计分析和作图的解释型语言。其作为一个开放的统计编程环境，语法通俗易懂，。大多数最新的统计方法和技术都可以在R中直接得到，在R语言中有着多种可供数据分析与数据可视化的包可供下载与使用，方便学者研究。而学习R语言具备免费开源、功能强大、方便易学等优点[2]。在2021年TIOBE排行版中，R语言位居第14的位置也说明其使用的广泛性普遍性。

3.相关性分析

略

五、数据探索

1.数据预处理

由于后裔采集器爬取的数据为完整可用数据集，因此数据集一不进行数据预处理步骤。着重针对深圳市空气质量日报进行数据预处理

a)缺失值处理

读取数据集后，将检测时间转换为Date格式后排序，形成初始数据集，首先对数据集进行缺失值统计，运用R语言本身函数库清理表层缺失值27条。通过观察可得出在数据中“-”同样为缺失数据。由于其本身为字符串R语言无法识别其为无内容含义，因此无法统一使用缺失值清除函数。通过删除函数统一删除带有“-”字符串条目最终实现缺失值处理完全。代码实现与解释如图 4‑1。

图 4‑1 源码展示

b)异常值处理

使用R语言基本箱线图绘制函数检测离群点，通过观察data2数据集中离群点检测结果如图 4‑2，判断data2数据集中离群点不属于影响离群点。

图 4‑2 空气污染指数离群点

而在data数据集中AQI属性离群点较为明显，如图 4‑3，明显可以通过各个属性箱线图对比发现AQI属性中确实存在缺失值。

图 4‑3 data数据集离群点

检测到异常值需要处理，少量异常值处理选用删除异常值所在行数据条目，因此将data数据集中AQI属性异常值通过异常值返回函数找到其数值，在原数据集中删除其所在数据条目，删除成功后绘图验证异常值是否处理成功。最终处理成功。代码实现与解释如下图 4‑4。

将异常值处理完毕后，自此数据预处理步骤完成。对比python数据预处理，R语言数据预处理明显可供选择的自带函数更多，实现的简易性更高，使用R语言进行数据预处理研究效率整体比python效率更具有优越性。

图 4‑4 代码展示

2.数据描述性分析

针对数据集data2进行数据探索，观察各指数级别占比与首要污染物占比图 4‑5，发现在各指数级别中，二级指数级别以73%的份额遥遥领先占据榜首，查阅资料可知，空气污染指数为51－100，空气质量级别为二级，空气质量状况属于良。此时空气质量可接受，但某些污染物可能对极少数异常敏感人群健康有较弱影响，建议极少数异常敏感人群应减少户外活动。符合居住区，办公区，一般工业区等公共场所及用地的标准，因此二级指数级别占据榜首初步可以说明深圳空气质量处于良好及以上的位置[4]。

而在深圳市，首要污染物中单独臭氧作为首要污染物已经占据了37%份额，另还有与其他污染物捆绑形成当天首要污染物份额，因此在深圳市，首要污染物为臭氧。查阅资料可知近地面臭氧的生成主要受气象条件的影响，而气象条件又因地而异。研究表明，臭氧的产生主要受高压天气的控制。由于云可以削减到达地面的太阳辐射，而紫外辐射是产生臭氧的一个重要的原因，因此晴天少云天气时臭氧浓度明显高于阴雨天。气温较高也有利于臭氧的生成，主要是由于高温可促进光化学反应的进行[5]。此外，相对湿度、风速和风向均可影响近地面臭氧的浓度。

图 4‑5 各指数级别占比

六、数据分析

1.数据集data分析

a)相关性显著检验

此次数据集data研究主要目的是分析深圳市空气指数与污染物关联度，找出最影响空气质量的污染物，采用相关分析方式。

众所周知，PM2.5与空气指数有明确相关性已经是盖棺定论的事情，因此此次研究先提出猜想，空气指数与PM2.5显著相关性，以下对二者进行相关性显著检验，使用R语言包cor.test进行参数相关性显著检验[6]，图 5‑1，最终得出结果P值为0.9143，得到的0.913数值显然无法说明空气指数与PM2.5有相关性，此时则有两种解释可能，第一，数据量太少不足以检验出PM2.5与空气指数的相关性，第二，单独对于深圳市来说深圳市的空气指数并未与PM2.5值有相关性，可能与其他污染物质有着显著相关性，接着就有了下文的相关性探索。

图 5‑1 相关性探索结果

b)相关性探索

首先要明确在data数据中PM10属性值为一个范围，并不是具体的数值型数据，因此在做统一相关性探索时，将PM10属性值去掉后的数据集统一进行相关性探索，对每个属性值进行相关性计算，查看空气指数与其他污染物质的相关性。以下为表 5‑1 相关性一览表。

表 5‑1 相关性一览表

	AQI	are	leval	PM2.5	CO	SO2	NO2	O3
AQI	1	0.101389	-0.01903	0.077785	0.011306	0.05424	0.403815	0.025141
are	0.101389	1	0.030002	-0.04868	-0.0027	0.108857	0.102039	0.040068
leval	-0.01903	0.030002	1	-0.08678	0.038888	0.046548	-0.15737	-0.17568
PM2.5	0.077785	-0.04868	-0.08678	1	-0.14133	-0.00229	0.065042	0.218597
CO	0.011306	-0.0027	0.038888	-0.14133	1	-0.09254	-0.05701	-0.20677
SO2	0.05424	0.108857	0.046548	-0.00229	-0.09254	1	-0.03571	0.141511
NO2	0.403815	0.102039	-0.15737	0.065042	-0.05701	-0.03571	1	-0.0282
O3	0.025141	0.040068	-0.17568	0.218597	-0.20677	0.141511	-0.0282	1

由上表可见AQI空气指数与NO2相关系数最大且为正相关，其次则是O3，将上述图标进行数据可视化后有如下图 5‑2，使用R语言中的画图包可以清晰明了的将上述图表绘制成美观的相关性可视化图片，非常清晰且直观的看出空气指数与NO2的相关性。再使用corr.test相关性显著检验，检验得出的NO2与空气指数相关结果。P值为5.972e-05，结论验证成功。

图 5‑2 相关性可视化

2.数据集data2分析

数据集data2本身是一个对深圳市2015年至2020年空气质量监测的日报数据集，因此可以对data2数据按照日期格式排序，排序后绘制出近六年每年空气质量曲线图。图 5‑3为深圳六年空气质量指数密度图。

可以很直观的看见2020年的曲线已经不再与2015年至2019年重合，查阅政策文件得知，2018年深圳出台《深圳市大气环境质量提升补贴办法(2018-2020年)》[7]，在2020年如期完成，从数据中直观看出深圳空气质量提升取得了卓越超前的成效。

图 5‑3 空气污染指数年份密度图

七、结论

1.关于深圳市空气质量研究

研究中可以发现对于深圳市来说，PM2.5反而并不是影响空气质量最大的原因，查阅资料得知PM2.5的形成有两个源头，自然源与人为源，其中人为源包括固定源和流动源。固定源包括各种燃料燃烧源，如发电、冶金、石油、化学、纺织印染等各种工业过程、供热、烹调过程中燃煤与燃气或燃油排放的烟尘。流动源主要是各类交通工具在运行过程中使用燃料时向大气中排放的尾气。而对于地理位置身处南方沿海的深圳市，其核心产业链并非上述工业而后高新科技产业，并且有研究指出在深圳臭氧含量颇高的成因[5]，NO2与O3反而代替PM2.5成为了影响深圳市空气质量的首要污染物质。

作为经济发展特区，深圳市的一举一动在全国甚至全球的瞩目下，深圳空气质量在近35年来呈现出倒U型，集体来说可划分为萌芽期，上升期，波动期，跃升期和稳定期五个阶段[6]，对于深圳来说哟，深圳的产业结构调整是影响空气质量的重要因素，不同阶段的经济发展与产业结构则形成了不同时期的阶段性空气质量。本文主要研究的时期从上述图中也可以观察出，是出于稳定期的空气质量，2015年至2019年的空气质量密度曲线近乎重合就可以反映出此时的空气质量阶段为稳定的不易改变的。

然而随着深圳市出台的《深圳市大气环境质量提升补贴办法(2018-2020年)》,在2020年截至年份，深圳市完成了跃进式的空气质量革新，在密度曲线背后所投射出来的不仅仅是一个政策的正确性，同时反映出政策背后的践行者的付出与努力，深圳政府、基层与深圳市民改进深圳市空气质量的决心。

2.此次研究使用的编程语言

通过此次完整的基于R语言下针对深圳市空气质量数据研究，对R语言的认知更为清晰明了，采用R语言进行数据研究在以下几个方面都具有优越性。

a)R语言进行数据预处理的优越

例如在此次实验中，对于数据的缺失值异常值处理，R语言只需要使用其自带的缺失值函数与箱线图可视化查看异常值，返回异常值等等，几行调用函数简单代码就解决数据预处理庞大工程。

b)R语言进行数据分析的优越

在此次实验中，相关性有着多种数据分析的方式，可以做相关性显著检验，可以对数据集进行各属性值相关性计算，也可以用summy初步查看数据信息等等，这些函数在其他语言中甚至需要人为编译，而在R语言中都可以通过函数调用实现。

c)R语言进行数据可视化的优越

相较于python，R数据科学生态系统如何具有许多较小的绘图程序包，有许多支持不同的做事方法的程序包，而对于python可能仅仅一个包就解决了各种繁琐的程序，这么一对比，会理所当然觉得python相较于R效率更高，实则不是，因为python语言更考验使用者的编译能力，而R语言由于其包的庞大数目以及多种多样，对初学者十分友好。