2020年美国新冠肺炎疫情数据分析

最新推荐文章于 2023-12-14 13:32:46 发布

你是哪个小饼干！

最新推荐文章于 2023-12-14 13:32:46 发布

阅读量966

点赞数 1

文章标签： hadoop spark hdfs

本文链接：https://blog.csdn.net/weixin_45134356/article/details/117707750

版权

本文通过Python使用Spark对2020年美国新冠疫情数据进行分析，涉及数据读取、转换、分组统计及可视化，包括累计确诊、死亡人数、新增数、各州排名及病死率等指标。

摘要由CSDN通过智能技术生成

2020年美国新冠肺炎疫情数据分析

本次实验是以2020年美国新冠肺炎疫情数作为数据集，编程语言是Python，使用Spark对数据进行分析，并且将分析结果可视化出来。

一、实验环境

（1）Linux：Ubantu 16.04
（2）Hadoop2.10.0 （查看教程）
（3）Python：3.6
（4）Spark：2.4.7（查看教程）
（5）Jupyter Notebook（查看教程）

二、数据集

2.1数据集下载
本次实验的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集（百度网盘下载，提取码：t7tu），此数据集是数据表us-counties.csv，包含了美国发现首例新冠肺炎确诊病例至2020-05-19的相关数据。数据包含以下字段：
项目 | Value

字段名称 字段含义 例子
date 日期 2020/1/21；2020/1/22；etc
county 区县（州的下一级单位） Snohomish；
state 州 Washington
cases 截止该日期该区县的累计确诊人数 1,2,3…
deaths 截止该日期该区县的累计确诊人数 1,2,3…
在这里插入图片描述
2.2格式转换
原始数据集是以.csv文件组织的，为了方便spark读取生成RDD或者DataFrame，首先将us-counties.csv转换为.txt格式文件即us-counties.txt。转换操作使用python实现，用Jupyter Notebook，代码组织在toTxt.ipynb中，具体代码如下：

import pandas as pd

#.csv ->.txt

data = pd.read_csv('/home/hadoop/us-counties.csv')
with open('/home/hadoop/us-counties.txt','a+',encoding = 'utf-8') as f:
	for line in data.values:
		f.write((str(line[0])+'\t'+str(line[1])+'\t'+str(line[2])+'\t'+str(line[3])+'\t'+str(line[4])+'\n')

2.3上传文件
使用如下命令把本地文件系统的“/home/hadoop/us-counties.txt”上传到HDFS文件系统中，具体路径是“/user/hadoop/us-counties.txt”。具体命令如下：

./bin/hdfs dfs -put /home/hadoop/us-counties.txt /user/hadoop

三、使用Spark对数据进行分析

3.1完整代码
用Jupyter Notebook将以下代码复制进去，文件命名为analyst.ipynb，具体代码如下：

from pyspark import SparkConf,SparkContext
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark.sql import SparkSession
from datetime import datetime
import pyspark.sql.functions as func
 
def toDate(inputStr):
    newStr = ""
    if len(inputStr) == 8:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7]
        newStr = s1+"-"+"0"+s2+"-"+"0"+s3
    else:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7:]
        newStr = s1+"-"+"0"+s2+"-"+s3
    date = datetime.strptime(newStr, "%Y-%m-%d")
    return date
 
 
 
#主程序:
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
 
fields = [StructField("date", DateType(),False),StructField("county", StringType(),False),StructField("state", StringType(),False),
                    StructField("cases", IntegerType(),False),StructField("deaths", IntegerType(),False),]
schema = StructType(fields)
 
rdd0 = spark.sparkContext.textFile("/user/hadoop/us-counties.txt")
rdd1 = rdd0.map(lambda x:x.split("\t")).map(lambda p: Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))
 
shemaUsInfo = spark.createDataFrame(rdd1,schema)
 
shemaUsInfo.createOrReplaceTempView("usInfo")
 
#1.计算每日的累计确诊病例数和死亡数
df = shemaUsInfo.groupBy("date").agg(func.sum("cases"),func.sum("deaths")).sort(shemaUsInfo["date"].asc())
 
#列重命名
df1 = df.withColumnRenamed("sum(cases)","cases").withColumnRenamed("sum(deaths)","deaths")
df1.repartition(1).write.json("r1.json")                               #写入hdfs
 
#注册为临时表供下一步使用
df1.createOrReplaceTempView("ustotal")
 
#2.计算每日较昨日的新增确诊病例数和死亡病例数
df2 = spark.sql("select t1.date,t1.cases-t2.cases as caseIncrease,t1.deaths-t2.deaths as deathIncrease from ustotal t1,ustotal t2 where t1.date = date_add(t2.date,1)")
 
df2.sort(df2["date"]<