‘’’
本次分析的数据是2018年北京积分落户数据分析
这个数据是从官网上下载下来的,因此此数据不存在数据缺失,不需要做数据清洗
本文是使用numpy、pandas和matplotlib来分析此数据
可以分析的数据
1.关于公司:
1)哪些公司落户北京的人多
2.关于积分
1)哪个积分区间人最多
3.关于生日
1)落户北京的年龄范围
‘’’
#导入相关库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#将csv导入到jupyter,并将id设置为行索引
luohu_data = pd.read_csv(’./bj_luohu.csv’,index_col= ‘id’)
#查看数据前五行,看看数据是什么,有哪些信息
luohu_data.head()
#涉及名字这个敏感信息,将姓名列删除
luohu_data =luohu_data.drop(columns=[‘name’])
luohu_data.head()
‘’’
1.分析公司相关的数据
1)哪些公司落户北京的人多
‘’’
#按照公司进行分组,不重新设置索引,并查看每个公司被重复的次数
company_data = luohu_data.groupby(‘company’,as_index=False).count()[[‘company’,‘score’]]
company_data
#优化下结果
#将列索引的‘score’更换为‘people_count’
#将所有以‘people_count’列从大到小排序
company_data.rename(columns={‘score’:‘people_count’},inplace=True)
company_sorted_data = company_data.sort_values(‘people_count’,ascending=False)
company_sorted_data