前段时间,胡润研究院发布了2021“胡润百富榜”,这是自1999年以来连续第23次发布“胡润百富榜”,上榜门槛连续第九年保持20亿元,通过分析今年的"胡润百富榜"看看这些富豪都是谁、富豪们主要从事的行业等等。和我一起来看看
1、数据读取及预处理
df = pd.read_csv('/home/mw/input/hrbf9490/2021胡润百富 - 榜单.csv')
复制代码
df.replace('New ~','New',inplace=True)
df['行业'] = df['行业'].map(lambda x:x[3:])
df['排名变化'] = df['排名变化'].map(lambda x:x if x=='New' else('Up' if int(x)>0 else('Down' if int(x)<0 else 'Unchanged')))
df['财富'] = df['财富'].astype('int')
复制代码
df['人物1'] = df['性别'].map(lambda x:x.split('、')[0])
df['人物2'] = df['性别'].map(lambda x:x.split('、')[1] if len(x) == 13 else '')
df.drop('性别',axis=1,inplace=True)
复制代码
df['人物1_性别'] = df['人物1'].map(lambda x:x.split()[0])
df['人物1_年龄'] = df['人物1'].map(lambda x:x.split()[1])
df['人物2_性别'] = df['人物2'].map(lambda x:x.split()[0] if len(x) != 0 else '')
df['人物2_年龄'] = df['人物2'].map(lambda x:x.split()[1] if len(x) != 0 else '')
df.drop(['人物1','人物2'],axis=1,inplace=True)
复制代码
2、百富榜Top10可视化 结果如图:
看到这个表,我就想着我心里最富有的马云怎么跑第五去了,居然由养生堂董事长 钟睒睒 以3900亿人民币占榜榜首,字节跳动的创始人 张一鸣