Datawhale Pandas 综合练习

最新推荐文章于 2021-08-25 10:45:00 发布

Denis.Zzzzzzzz?

最新推荐文章于 2021-08-25 10:45:00 发布

阅读量186

点赞数

分类专栏： datawhale 笔记文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_46121449/article/details/112058521

版权

本文通过三个数据处理任务展示了Pandas在数据分析中的应用。任务一涉及企业收入多样性，处理证券代码、日期和收入额，探讨收入为负值的处理方式。任务二要求转换组队学习信息表，实现队长标识。任务三围绕美国大选投票数据，计算县投票比例、重新组织数据以及定义并寻找Biden State。

摘要由CSDN通过智能技术生成

【任务一】企业收入的多样性

在这里插入图片描述
拿到数据后首先对数据进行观察：

df1 = pd.read_csv("practice_data/company.csv")
df2 = pd.read_csv("practice_data/company_data.csv")
df1.head()

在这里插入图片描述

df2.head()

在这里插入图片描述
可以直观的发现有两组数据有这么几点区别:

证券代码格式不同，一组为字符串格式，一组为整形格式
日期不同，一组是以年为单位，一组是每年的最后一日
收入额的格式需要确认

对于证券代码，具体来观察：
由于最终是要在表一中增加收入熵指标，所以要以表一中的证券代码和日期为准，而表2中的证券代码和日期数据是要多于表一的。另外，表2中的证券代码要用0在前面补足6位，从而变成表一的格式：

def fixcode(x):
    if x // 100000 ==  0:
        if x // 10 == 0:
            code = "#00000" + str(x)
        elif x // 100 == 0:
            code =  "#0000" + str(x)
        elif x // 1000 == 0:
            code = "#000" + str(x)
        elif x // 10000 == 0:
            code = "#00" + str(x)
    else:
        code = "#" + str(x)
    return code

df2["证券代码"]= df2["证券代码"].map(fixcode)