调用Spark对2020年美国新冠肺炎疫情数据分析

最新推荐文章于 2023-12-14 13:32:46 发布

广阔无垠

最新推荐文章于 2023-12-14 13:32:46 发布

阅读量1.6k

点赞数 1

分类专栏：大数据文章标签：可视化大数据 python hadoop 数据分析

本文链接：https://blog.csdn.net/weixin_49230161/article/details/117756690

版权

该博客介绍了如何在Linux环境下，使用Python和Spark对2020年美国新冠肺炎疫情数据进行分析，涉及数据下载、格式转换、上传至HDFS、数据读取、DataFrame操作及可视化，包括累计确诊、新增病例、州别统计等指标的计算与可视化图表展示。

摘要由CSDN通过智能技术生成

本案例以2020年美国新冠肺炎疫情数据作为数据集，以Python为编程语言，使用Spark对数据进行分析，并对分析结果进行可视化。

一、实验环境

1.Linux系统

一般来说，如果要做服务器，我们选择CentOS或者Ubuntu Server；如果做桌面系统，我们选择Ubuntu Desktop。但是在学习Hadoop方面，虽然两个系统没有多大区别，但是个人在学习生活中常用Ubuntu,所以本实验采用Ubuntu Kylin版本。（以Ubuntu Kylin 20.04.1为例）

2.编程环境

本项目采用jdk1.8来带动hadoop3.1.3（安装教程网址：http://dblab.xmu.edu.cn/blog/2441-2/）运行数据处理，利用Spark2.4.0h对hadoop进行数据分类。Jupyter Notebook(安装教程网址：http://dblab.xmu.edu.cn/blog/2575-2/)对文件进行csv文件转换和将Spark数据进行分析。

二、数据集

2.1 数据集下载

本次作业使用的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集（从百度网盘下载，提取码：t7tu），该数据集以数据表us-counties.csv组织，其中包含了美国发现首例新冠肺炎确诊病例至今（2020-05-19）的相关数据。数据包含以下字段：

字段名称	字段含义	例子
date	日期	2020/1/21；2020/1/22
county	区县（州的下一级单位）	Snohomish
state	州	Washington
cases	截止该日期该区县的累计确诊人数	1,2,3…
deaths	截止该日期该区县的累计死亡人数	1,2,3…

在这里插入图片描述

2.2 格式转换

原始数据集是以.csv文件组织的，为了方便spark读取生成RDD或者DataFrame，首先将us-counties.csv转换为.txt格式文件us-counties.txt。转换操作使用python实现，代码组织在toTxt.py中，具体代码如下：

下面展示一些 内联代码片。

    import pandas as pd
     
    #.csv->.txt
    data = pd.read_csv('/home/hadoop/us-counties.csv')
    with open('/home/hadoop/us-counties.txt','a+',encoding='utf-8') as f:
        for line in data.values:
            f.write((str(line[0])+'\t'+str(line[1])+'\t'
                    +str(line[2])+'\t'+str(line[3])+'\t'+str(line[4])+'\n'))

2.3 将文件上传至HDFS文件系统中

然后使用如下命令把本地文件系统的“/home/hadoop/us-counties.txt”上传到HDFS文件系统中，具体路径是“/user/hadoop/us-counties.txt”。具体命令如下：

$ ./bin/hdfs dfs -put /home/hadoop/us-counties.txt /user/hadoop

否则，运行analyst.py文件会报相应的错误：
在这里插入图片描述

从错误可以看出，未导入数据集时，数据就无法从HDFS当中进行读取至DataFrame。

三、使用Spark对数据进行分析

这里采用Python作为编程语言。

3.1 完整代码

本部分操作的完整实验代码存放在了analyst.py中，具体如下：

    from pyspark import SparkConf,SparkContext
    from pyspark.sql import Row
    from pyspark.sql.types import *
    from pyspark.sql import SparkSession
    from datetime import datetime
    import pyspark.sql.functions as func
     
    def toDate(inputStr):
        newStr = ""
        if len(inputStr) == 8:
            s1 = inputStr[0:4]
            s2 = inputStr[5:6]
            s3 = inputStr[7]
            newStr = s1+"-"+"0"+s2+"-"+"0"+s3
        else:
            s1 = inputStr[0:4]
            s2 = inputStr[5:6]
            s3 = inputStr[7:]
            newStr = s1+"-"+"0"+s2+"-"+s3
        date = datetime.strptime(newStr, "%Y-%m-%d")
        return date
     
     
     
    #主程序:
    spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
     
    fields = [StructField("date", DateType(),False),StructField("county", StringType(),False),StructField("state", StringType(),False),
                        StructField("cases", IntegerType(),False),StructField("deaths", IntegerType(),False),]
    schema = StructType(fields)
     
    rdd0 = spark.sparkContext.textFile("/user/hadoop/us-counties.txt")
    rdd1 = rdd0.map(lambda x:x.split("\t")).map(lambda p: Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))
     
     
    shemaUsInfo = spark.createDataFrame(rdd1,schema)
     
    shemaUsInfo.createOrReplaceTempView("usInfo")
     
    #1.计算每日的累计确诊病例数和死亡数
    df = shemaUsInfo.groupBy("date").agg(func.sum("cases"),func.sum("deaths")).sort(shemaUsInfo["date"].asc())
     
    #列重命名
    df1 = df.withColumnRenamed("sum(cases)","cases").withColumnRenamed("sum(deaths)","deaths")
    df1.repartition(1).write.json("result1.json")                               #写入hdfs
     
    #注册为临时表供下一步使用
    df1.createOrReplaceTempView("ustotal")
     
    #2.计算每日较昨日的新增确诊病例数和死亡病例数
    df2 = spark.sql("select t1.date,t1.cases-t2.cases as caseIncrease,t1.deaths-t2.deaths as deathIncrease from ustotal t1,ustotal t2 where t1.date = date_add(t2.date,1)")
     
    df2.sort(df2["date"].asc()).repartition(