[python]pandas基础操作

最新推荐文章于 2023-07-11 21:59:58 发布

shu天

最新推荐文章于 2023-07-11 21:59:58 发布

阅读量395

点赞数 1

分类专栏： python 数据处理文章标签： python 数据分析 pandas

不允许转载

本文链接：https://blog.csdn.net/weixin_46081055/article/details/121464008

版权

python 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

数据处理

7 篇文章 0 订阅

订阅专栏

学校作业记一下
一、数据说明：
本次练习使用的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集，该数据集以数据表us-counties.csv组织，其中包含了美国发现首例新冠肺炎确诊病例至2020-05-19的相关数据。数据包含以下字段：

字段名称  字段含义                        例子
date      日期                            2020/1/21；2020/1/22；etc
county    区县（州的下一级单位）          Snohomish；
state      州                              Washington
cases     截止该日期该区县的累计确诊人数   1,2,3…
deaths    截止该日期该区县的累计确诊人数   1,2,3…

在这里插入图片描述
二、实验要求：
使用python根据该数据完成以下内容：

清除重复数据后，生成DataFrame。
进行数据分析，解决如下问题：
1）统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段，对cases和deaths字段进行汇总统计。
2）统计截止2020.05.19，美国各州的累计确诊人数和死亡人数。首先筛选出5.19的数据，然后以state作为分组字段，对cases和deaths字段进行汇总统计。
3）统计截止5.19日，美国死亡人数最少的十个州。
4）统计截止5.19日，全美和各州的病死率。病死率 = 死亡数/确诊数，对3)的结果DataFrame注册临时表，然后按公式计算。
上述统计结果写入csv文件（分开生成，共4个文件1.csv-4.csv）。

import pandas as pd
import os
import csv

# 使用pandas读入
data = pd.read_csv( r"./us-counties.csv")	#读取文件中所有数据为dataframe
a=data.drop_duplicates(subset=None, keep='first', inplace=False) #去重
new = a

# 1)统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段，对cases和deaths字段进行汇总统计
sum = a[["date", "cases","deaths"]].groupby("date").sum()
sum.to_csv(r'./1.csv')

# 2) 以state作为分组字段，对cases和deaths字段进行汇总统计。
state = a[["state", "cases","deaths"]].groupby("state").sum()
state.to_csv(r'./2.csv')

# 3) 美国死亡人数最少的十个州
death = a[["state", "deaths"]].groupby("state").sum()
top = death.sort_values(by='deaths', ascending=True).head(10)
top.to_csv(r'./3.csv')


# 4) 全美和各州的病死率。病死率 = 死亡数/确诊数，对3)的结果DataFrame注册临时表，然后按公式计算。
new.loc['ALL'] = new.apply(lambda x: x.sum())
new.loc['ALL','state'] = "US"
DF = new[["state", "cases","deaths"]].groupby("state").sum()
DF.eval('death_rate = deaths/cases' , inplace=True)
B=DF.drop("deaths", 1)
C=B.drop("cases", 1)
C.to_csv(r'./4.csv')

发现自己看错数据了，源数据是累计死亡率…改了一下

import pandas as pd
import os
import csv

# 使用pandas读入
data = pd.read_csv( r"./us-counties.csv")	#读取文件中所有数据为dataframe
a=data.drop_duplicates(subset=None, keep='first', inplace=False) #去重
new = a

# 1)统计美国截止每日的累计确诊人数和累计死亡人数。做法是以date作为分组字段，对cases和deaths字段进行汇总统计
sum = a[["date", "cases","deaths"]].groupby("date").sum()
sum.to_csv(r'./1.csv')

# 2) 以state作为分组字段，对cases和deaths字段进行汇总统计。
a = a[a['date']=='2020/5/19']
state = a[["state", "cases","deaths"]].groupby("state").sum()
state.to_csv(r'./2.csv')

# 3) 美国死亡人数最少的十个州
death = a[["state", "deaths"]].groupby("state").sum()
top = death.sort_values(by='deaths', ascending=True).head(10)
top.to_csv(r'./3.csv')


# 4) 全美和各州的病死率。病死率 = 死亡数/确诊数，对3)的结果DataFrame注册临时表，然后按公式计算。
new = a[a['date']=='2020/5/19']
new.loc['ALL'] = new.apply(lambda x: x.sum())
new.loc['ALL','state'] = "US"
DF = new[["state", "cases","deaths"]].groupby("state").sum()
DF.eval('death_rate = deaths/cases' , inplace=True)
B=DF.drop("deaths", 1)
C=B.drop("cases", 1)
C.to_csv(r'./4.csv')

shu天

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
[python]pandas基础操作

学校作业记一下一、数据说明：本次练习使用的数据集来自数据网站Kaggle的美国新冠肺炎疫情数据集，该数据集以数据表us-counties.csv组织，其中包含了美国发现首例新冠肺炎确诊病例至2020-05-19的相关数据。数据包含以下字段：字段名称字段含义例子date 日期 2020/1/21；2020/1/22；etccounty 区县（州的下一级单位） S
复制链接

扫一扫