首先,读入数据集,共包含6019条数据,4个变量:姓名name,出生年月birthday,公司company,落户分数score`
luohu_data = pd.read_csv('bj_luohu.csv',index_col='id')
luohu_data.head()
看一下落户分数的大致情况,可以看出2018年积分落户最低分为90.75分,最高分为122.59分,平均分为95.65分。
luohu_data.describe()
将数据按照公司进行分组统计,共有3430个公司,只有1人成功落户的公司数量为2626,占落户数据中所有公司的76.7%
company_data = luohu_data.groupby('company',as_index=False).count()[['company','name']]
company_data.rename(columns={
'name':'people_count'},inplace=True)