task special & task 11

最新推荐文章于 2024-07-12 16:16:27 发布

小五的眼里有星星

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量111

点赞数

分类专栏： DW_pandas学习记录文章标签： python

本文链接：https://blog.csdn.net/xiaowu_55555/article/details/112080456

版权

DW_pandas学习记录专栏收录该内容

12 篇文章 0 订阅

订阅专栏

能力较差，不太会做。此次作业完成比较困难，有借鉴别人（Gocara）的代码~
【任务一】企业收入的多样性
在这里插入图片描述
调包

import pandas as pd
import numpy as np
np.seterr(all = 'ignore')

读取两个表格里的数据

df1 = pd.read_csv('company.csv')
df2 = pd.read_csv('company_data.csv')

df1.head()

df2.head()

由上面两个结果可知，两个表格中的数据格式不一致，所以先要统一格式。

df1_ = df1.copy()
df1_['证券代码'] = df1_['证券代码'].str[1:].astype('int64')

注：将df1表中证券代码列里的#去掉转为int

df2['日期'] = df2['日期'].str[:4].astype('int64')

注：将df2表日期列取前四位year转为int

下一步需要根据熵的公式，自定义熵的函数：

def entropy(x):
    if x.any():
        p = x/x.sum()
        return -(p*np.log2(p)).sum()
    return np.nan
res = df1_.merge(df2, on=['证券代码','日期'], how='left').groupby(['证券代码','日期'])['收入额'].apply(entropy).reset_index()
res.head()

注：跳过NaN值；用df1表左连接df2表 , 连接列为证券代码和日期 , 再继续对这两列分组 , 取出收入额列用apply调用信息熵函数 , 重置索引

小五的眼里有星星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
task special & task 11

能力较差，不太会做。此次作业完成比较困难，有借鉴别人（Gocara）的代码~【任务一】企业收入的多样性调包import pandas as pdimport numpy as npnp.seterr(all = 'ignore')读取两个表格里的数据df1 = pd.read_csv('company.csv')df2 = pd.read_csv('company_data.csv')df1.head()df2.head()由上面两个结果可知，两个表格中的数据格式不一致，所以
复制链接

扫一扫