Datawhale Pandas 综合练习

本文通过三个数据处理任务展示了Pandas在数据分析中的应用。任务一涉及企业收入多样性,处理证券代码、日期和收入额,探讨收入为负值的处理方式。任务二要求转换组队学习信息表,实现队长标识。任务三围绕美国大选投票数据,计算县投票比例、重新组织数据以及定义并寻找Biden State。
摘要由CSDN通过智能技术生成

【任务一】企业收入的多样性

在这里插入图片描述
拿到数据后首先对数据进行观察:

df1 = pd.read_csv("practice_data/company.csv")
df2 = pd.read_csv("practice_data/company_data.csv")
df1.head()

在这里插入图片描述

df2.head()

在这里插入图片描述
可以直观的发现有两组数据有这么几点区别:

  1. 证券代码格式不同,一组为字符串格式,一组为整形格式
  2. 日期不同,一组是以年为单位,一组是每年的最后一日
  3. 收入额的格式需要确认

对于证券代码,具体来观察:
由于最终是要在表一中增加收入熵指标,所以要以表一中的证券代码和日期为准,而表2中的证券代码和日期数据是要多于表一的。另外,表2中的证券代码要用0在前面补足6位,从而变成表一的格式:

def fixcode(x):
    if x // 100000 ==  0:
        if x // 10 == 0:
            code = "#00000" + str(x)
        elif x // 100 == 0:
            code =  "#0000" + str(x)
        elif x // 1000 == 0:
            code = "#000" + str(x)
        elif x // 10000 == 0:
            code = "#00" + str(x)
    else:
        code = "#" + str(x)
    return code

df2["证券代码"]= df2["证券代码"].map(fixcode)

在这里插入图片描述
然后处理一下日期:

df2[
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值