EduCoder Pandas合并数据集第三关：案例：美国各州的统计数据

最新推荐文章于 2024-05-08 08:22:13 发布

503 Rapper

最新推荐文章于 2024-05-08 08:22:13 发布

阅读量5.4k

点赞数 7

分类专栏： EduCoder 文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_43608722/article/details/106351659

版权

文章目录

任务描述

编程要求

测试说明

任务描述

本关为练习关卡，请按照编程要求完成任务，获取美国各州2010年的人口密度排名。

编程要求

使用read_csv()函数读取step3文件夹中的state-population.csv（pop）、state-areas.csv(areas)、state-abbrevs.csv(abbrevs)文件；

合并pop和abbrevs。我们需要将pop的state/region列与abbrevs的abbreviation列进行合并，还需要通过how='outer'确保数据没有丢失，得到合并后的结果，发现有一个重复列需要删除，所以，删除abbreviation列；

来全面检查一下数据是否有缺失，对每个字段逐行检查是否有缺失值，通过结果可知只有population和state列有缺失值；

查看population这一列为缺失值的特征。通过结果可以得到好像所有的人口缺失值都出现在2000年之前的波多黎各，此前并没有统计过波多黎各的人口；

从上面的结果可以发现state这一列也有缺失值，通过下列代码可以查看是哪些州有缺失值；
merged.loc[merged['state'].isnull(),'state/region'].unique()
我们可以快速解决这个问题：人口数据中包含波多黎各（PR）和全国总数ÿ

最低0.47元/天解锁文章

503 Rapper

关注

7
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
EduCoder Pandas合并数据集第三关：案例：美国各州的统计数据

文章目录任务描述编程要求测试说明任务描述本关为练习关卡，请按照编程要求完成任务，获取美国各州2010年的人口密度排名。编程要求使用read_csv()函数读取step3文件夹中的state-population.csv（pop）、state-areas.csv(areas)、state-abbrevs.csv(abbrevs)文件；合并pop和abbrevs。我们需要将pop的state/region列与abbrevs的abbreviation列进行合并，还需要通过how='outer'.
复制链接

扫一扫