合并人口数据：清理缺失值、计算人口密度-CSDN博客

本文链接：https://blog.csdn.net/weixin_45847320/article/details/125048962

需求：

导入文件，查看原始数据
将人口数据和各州简称数据进行合并
将合并数据中重复的abbreviation列进行删除
查看存在缺失数据的列
找到有哪些state/region使得state的值为NaN，进行去重操作
为找到的这些state/region的state补上正确的值，从而除掉state这一列的所有NaN
合并各州面积数据areas
我们会发现area(sq.mi)这一列有缺失数据，找出是哪些行
去除含有缺失数据的行
找出2010年的全民人口数据
计算各州的人口密度
排序，并找出人口密度最高的州

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

#导入文件，查看原始数据
abb = pd.read_csv("./data/state-abbrevs.csv")#state是州的全称，abbreviation是州的简称
area = pd.read_csv("./data/state-areas.csv")#state州的全称，area州的占地面积
pop = pd.read_csv("./data/state-population.csv")#state/region州的简称，ages年龄，year时间，population人数

#将人口数据和各州简称数据进行合并（为了保证数据的完整性，采用外连接的方式）
abb_pop = pd.merge(abb,pop,left_on="abbreviation",right_on="state/region",how="outer")
print(abb_pop.head(5))

#对合并后的数据删除重复列
abb_pop.drop(labels="abbreviation",axis=1,inplace=True)
print(abb_pop.head(5))