利用python分析:2018年北京积分落户数据

‘’’
本次分析的数据是2018年北京积分落户数据分析
这个数据是从官网上下载下来的,因此此数据不存在数据缺失,不需要做数据清洗
本文是使用numpy、pandas和matplotlib来分析此数据
可以分析的数据
1.关于公司:
1)哪些公司落户北京的人多
2.关于积分
1)哪个积分区间人最多
3.关于生日
1)落户北京的年龄范围

‘’’
#导入相关库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#将csv导入到jupyter,并将id设置为行索引
luohu_data = pd.read_csv(’./bj_luohu.csv’,index_col= ‘id’)

#查看数据前五行,看看数据是什么,有哪些信息
luohu_data.head()
此数据有四列:姓名、出生年月、公司、分数
#涉及名字这个敏感信息,将姓名列删除
luohu_data =luohu_data.drop(columns=[‘name’])
luohu_data.head()
好啦,把名字列去掉了
‘’’
1.分析公司相关的数据
1)哪些公司落户北京的人多
‘’’
#按照公司进行分组,不重新设置索引,并查看每个公司被重复的次数
company_data = luohu_data.groupby(‘company’,as_index=False).count()[[‘company’,‘score’]]
company_data
最左边的一列为索引,company为公司名称,此时的score列为每个公司被重复的次数
#优化下结果
#将列索引的‘score’更换为‘people_count’
#将所有以‘people_count’列从大到小排序
company_data.rename(columns={‘score’:‘people_count’},inplace=True)
company_sorted_data = company_data.sort_values(‘people_count’,ascending=False)
company_sorted_data

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值