利用python分析：2018年北京积分落户数据

最新推荐文章于 2021-04-15 22:17:09 发布

Van Basten

最新推荐文章于 2021-04-15 22:17:09 发布

阅读量430

点赞数

文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_45568685/article/details/100587699

版权

‘’’
本次分析的数据是2018年北京积分落户数据分析
这个数据是从官网上下载下来的，因此此数据不存在数据缺失，不需要做数据清洗
本文是使用numpy、pandas和matplotlib来分析此数据
可以分析的数据
1.关于公司：
1）哪些公司落户北京的人多
2.关于积分
1）哪个积分区间人最多
3.关于生日
1）落户北京的年龄范围
‘’’
#导入相关库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#将csv导入到jupyter，并将id设置为行索引
luohu_data = pd.read_csv(’./bj_luohu.csv’,index_col= ‘id’)

#查看数据前五行，看看数据是什么，有哪些信息
luohu_data.head()
此数据有四列：姓名、出生年月、公司、分数
#涉及名字这个敏感信息，将姓名列删除
luohu_data =luohu_data.drop(columns=[‘name’])
luohu_data.head()
好啦，把名字列去掉了
‘’’
1.分析公司相关的数据
1）哪些公司落户北京的人多
‘’’
#按照公司进行分组，不重新设置索引，并查看每个公司被重复的次数
company_data = luohu_data.groupby(‘company’,as_index=False).count()[[‘company’,‘score’]]
company_data
最左边的一列为索引，company为公司名称，此时的score列为每个公司被重复的次数
#优化下结果
#将列索引的‘score’更换为‘people_count’
#将所有以‘people_count’列从大到小排序
company_data.rename(columns={‘score’:‘people_count’},inplace=True)
company_sorted_data = company_data.sort_values(‘people_count’,ascending=False)
company_sorted_data

最低0.47元/天解锁文章

Van Basten

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用python分析：2018年北京积分落户数据

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
复制链接

扫一扫