项目要求:探索全国2013-2016年资本流动问题
项目数据:data.xlsx,中国城市代码对照表.xlsx
项目过程:
-
查看全国城际控股型投资关系
原始数据中,同一年中的投资数据会重复记录,所以需要将数据以’投资方所在城市’,‘融资方所在城市’,'年份’这三个字段做一个分组汇总
# 数据读取,筛选出“同城投资”、“跨城投资”数据 df = pd.read_excel('data.xlsx') # 数据读取 df = df.groupby(['投资方所在城市','融资方所在城市','年份']).sum().reset_index() # 汇总数据 data_tc = df[df['投资方所在城市'] == df['融资方所在城市']] data_tc = data_tc.sort_values(by = '投资企业对数',ascending = False).reset_index() del data_tc['index'] # 筛选出“同城投资”数据 data_kc = df[df['投资方所在城市'] != df['融资方所在城市']] data_kc = data_kc.sort_values(by = '投资企业对数',ascending = False).reset_index() del data_kc['index'] # 筛选出“跨城投资”数据
# 比较一下“同城投资”、“跨城投资”TOP20的数据分布 # 按照2013-2017年的汇总数据来计算,比较 tc_sum = data_tc.groupby(['投资方所在城市','融资方所在城市']).sum().sort_values(by = '投资企业对数',ascending = False) del tc_sum['年份'] # 汇总“同城投资”数据 kc_sum = data_kc.groupby(['投资方所在城市','融资方所在城市']).sum().sort_values(by = '投资企业对数',ascending = False) del kc_sum['年份'] # 汇总“跨城投资”数据
# 查看“同城投资” tc_sum.iloc[:20]
# 查看“跨城投资”
kc_sum.iloc[:20]
tc_sum.iloc[:20].plot(kind = 'bar',grid = True, figsize = (10,4),color = 'blue',alpha = 0.7)
kc_sum.iloc[:20].plot(kind = 'bar',grid = True, figsize = (10,4),color = 'green',alpha = 0.7)
结论1:
① 从2013-2016的汇总数据来看,投资比数“同城投资”>“跨城投资”
② “同城投资”中领头的城市为北上广深及部分二线强城市,其中 深圳>北京>上海>>其他城市
③ “跨城投资”中领头的城市仍为北上广深(相互投资),或者北上广深向周边城市投资(城市群)
# 比较一下“同城投资”、“跨城投资”TOP20的数据分布
# 分开比较2013-2016四个年度的数据
def f1(year):
tc_year = data_tc[data_tc['年份'] == year].sort_values(by = '投资企业对数',ascending = False)
kc_year = data_kc[data_kc['年份'] == year].sort_values(by = '投资企业对数',ascending = False)
tc_year.index = tc_year['投资方所在城市']
kc_year.index = kc_year['投资方所在城市'] + '-' + kc_year['融资方所在城市']
# 筛选该年的“同城投资”、