2020年美国新冠肺炎疫情数据分析

最新推荐文章于 2024-07-26 17:36:26 发布

weixin_44517878

最新推荐文章于 2024-07-26 17:36:26 发布

阅读量2.6k

点赞数 4

文章标签：可视化 python 大数据 hadoop

本文链接：https://blog.csdn.net/weixin_44517878/article/details/117603303

版权

2020年美国新冠肺炎疫情数据分析

一、实验环境
二、数据集
三、使用Spark对数据进行分析
四、数据可视化
- 1.可视化工具选择与代码
- 2.结果图表展示
五、参考资料

本案例以2020年美国新冠肺炎疫情数据作为数据集，以Python为编程语言，使用Spark对数据进行分析，并对分析结果进行可视化。

一、实验环境

Linux： Ubuntu 16.04
Hadoop：3.1.3
Python: 3.5
Spark: 2.4.0
Jupyter Notebook

二、数据集

1.数据集介绍

本次作业使用的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集，该数据集以数据表us-counties.csv组织，其中包含了美国发现首例新冠肺炎确诊病例至2020-05-19日的相关数据。数据包含以下字段：

字段名称	字段含义	例子
date	日期	2020/1/21；2020/1/22
county	区县（州的下一级单位）	Snohomish
state	州	Washington
cases	截止该日期该区县的累计确诊人数	1,2,3…
deaths	截止该日期该区县的累计死亡人数	1,2,3…

部分数据集

2.格式转换

原始数据集是以.csv文件组织的，为了方便spark读取生成RDD或者DataFrame，首先将us-counties.csv转换为.txt格式文件us-counties.txt。转换操作使用python实现，代码组织在toTxt.py中，具体代码如下：

import pandas as pd
 
#.csv->.txt
data = pd.read_csv('/home/hadoop/us-counties.csv')
with open('/home/hadoop/us-counties.txt','a+',encoding='utf-8') as f:
    for line in data.values:
        f.write((str(line[0])+'\t'+str(line[1])+'\t'
                +str(line[2])+'\t'+str(line[3])+'\t'+str(line[4])+'\n'))

首先将us-counties.csv文件放到Ubuntu系统的/usr/local/hadoop目录下，在这个目录下将CSV文件转为TXT文件
使用jupyter notebook运行toTxt.py。
查看运行结果，/usr/local/hadoop下已生成us-counties.txt文件

3.将文件上传至HDFS文件系统中

启动Hadoop，并使用jps命令查看启动结果

./sbin/start-dfs.sh

go hadoop！
2. 在HDFS文件系统中，创建/user/hadoop文件夹，后续的运行结果文件都将存放在这里

./bin/hdfs dfs -mkdir -p /user/hadoop
./bin/hdfs dfs -put /usr/local/hadoop/data/us-counties.txt /user/hadoop

创建hdfs文件夹

三、使用Spark对数据进行分析

这里采用python作为编程语言。

1.完整代码

本部分操作的完整实验代码存放在了analyst.py中，具体如下

from pyspark import SparkConf,SparkContext
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark.sql import SparkSession
from datetime import datetime
import pyspark.sql.functions as func
 
def toDate(inputStr):
    newStr = ""
    if len(inputStr) == 8:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7]
        newStr = s1+"-"+"0"+s2+"-"+"0"+s3
    else:
        s1 = inputStr[0:4]
        s2 = inputStr[5:6]
        s3 = inputStr[7:]
        newStr = s1+"-"+"0"+s2+"-"+s3
    date = datetime.strptime(newStr, "%Y-%m-%d")
    return date
 
 
 
#主程序:
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
 
fields = [StructField("date", DateType(),False),StructField("county", StringType(),False),StructField("state", StringType(),False),
                    StructField("cases", IntegerType(),False),StructField("deaths", IntegerType(),False),]
schema = StructType(fields)
 
rdd0 = spark.sparkContext.textFile("/user/hadoop/us-counties.txt")
rdd1 = rdd0.map(lambda x:x.split("\t")).map(lambda p: Row(toDate(p[0]),p[1],p[2],int(p[3]),int(p[4])))
 
 
shemaUsInfo = spark.createDataFrame(rdd1,schema)
 
shemaUsInfo.createOrReplaceTempView("usInfo")
 
#1.计算每日的累计确诊病例数和死亡数
df = shemaUsInfo.groupBy("date").agg(func.sum("cases"),func.sum("deaths")).sort(shemaUsInfo["date"].asc())
 
#列重命名
df1 = df.withColumnRenamed("sum(cases)","cases").withColumnRenamed("sum(deaths)","deaths")
df1.repartition(1).write.json("result1.json")                               #写入hdfs
 
#注册为临时表供下一步使用
df1.createOrReplaceTempView("ustotal")
 
#2.计算每日较昨日的新增确诊病例数和死亡病例数
df2 = spark.sql("select t1.date,t1.cases-t2.cases as caseIncrease,t1.deaths-t2.deaths as deathIncrease from ustotal t1,ustotal t2 where t1.date = date_add(t2.date,1)")
 
df2.sort(df2["date"].asc()).repartition(1).write.json("result2.json")           #写入hdfs
 
#3.统计截止5.19日 美国各州的累计确诊人数和死亡人数
df3 = spark.sql("select date,state,sum(cases) as totalCases,sum(deaths) as totalDeaths,round(sum(deaths)/sum(cases),4) as deathRate from usInfo  where date = to_date('2020-05-19','yyyy-MM-dd') group by date,state")
 
df3.sort(df3["totalCases"].desc()).repartition(1)

最低0.47元/天解锁文章

weixin_44517878

关注

4
点赞
踩
38

收藏

觉得还不错? 一键收藏
3
评论
2020年美国新冠肺炎疫情数据分析

本案例以2020年美国新冠肺炎疫情数据作为数据集，以Python为编程语言，使用Spark对数据进行分析，并对分析结果进行可视化。一、实验环境Linux： Ubuntu 16.04Hadoop：3.1.3Python: 3.5Spark: 2.4.0Jupyter Notebook二、数据集1.数据集介绍本次作业使用的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集，该数据集以数据表us-counties.csv组织，其中包含了美国发现首例新冠肺炎确诊病例至2020-05-19日
复制链接

扫一扫