【任务一】企业收入的多样性
拿到数据后首先对数据进行观察:
df1 = pd.read_csv("practice_data/company.csv")
df2 = pd.read_csv("practice_data/company_data.csv")
df1.head()
df2.head()
可以直观的发现有两组数据有这么几点区别:
- 证券代码格式不同,一组为字符串格式,一组为整形格式
- 日期不同,一组是以年为单位,一组是每年的最后一日
- 收入额的格式需要确认
对于证券代码,具体来观察:
由于最终是要在表一中增加收入熵指标,所以要以表一中的证券代码和日期为准,而表2中的证券代码和日期数据是要多于表一的。另外,表2中的证券代码要用0在前面补足6位,从而变成表一的格式:
def fixcode(x):
if x // 100000 == 0:
if x // 10 == 0:
code = "#00000" + str(x)
elif x // 100 == 0:
code = "#0000" + str(x)
elif x // 1000 == 0:
code = "#000" + str(x)
elif x // 10000 == 0:
code = "#00" + str(x)
else:
code = "#" + str(x)
return code
df2["证券代码"]= df2["证券代码"].map(fixcode)
然后处理一下日期:
df2[