Pandas Task4 变形

Pandas Task4 变形


1. 问题

【问题一】 上面提到了许多变形函数,如melt/crosstab/pivot/pivot_table/stack/unstack函数,请总结它们各自的使用特点。

pivot函数是透视表,不过局限性比较大,除了功能上较少之外,还不允许values中出现重复的行列索引对;

pivot_table是pivot函数的引申,允许出现行索引的重复,默认为求均值mean,与pivot相比,运行速度较慢;

melt函数相当于pivot_table的逆操作,将unstacked状态的数据,压缩成stacked,使“宽”的DataFrame变“窄”,即相当于多列数据压缩在一列里面;
crosstab是交叉表,交叉表是一种特殊的透视表,典型的用途如分组统计,若参数不给定默认为统计个数count

stack函数是最基本的变形函数,顾名思义就是压缩,总共只有两个参数:level和dropna,stack函数可以看做将横向的索引放到纵向,因此功能类似与melt,参数level可指定变化的列索引是哪一层(或哪几层,需要列表)¶,比如stack(0)相当于压缩最外层的行,若没给定数值stack()相当于压缩最内层的行

unstack函数是stack函数的逆操作,即解压,性质与stack函数类似

【问题二】 变形函数和多级索引是什么关系?哪些变形函数会使得索引维数变化?具体如何变化?

相似的关系,近似对DataFrame分组;melt会使索引维度增加

【问题三】 请举出一个除了上文提过的关于哑变量方法的例子。

【问题四】 使用完stack后立即使用unstack一定能保证变化结果与原始表完全一致吗?

不一定,经过测试发现结果不一样

【问题五】 透视表中涉及了三个函数,请分别使用它们完成相同的目标(任务自定)并比较哪个速度最快。

【问题六】 既然melt起到了stack的功能,为什么再设计stack函数?¶

stack是有针对性的处理,比如在pivot_table处理后使用stack,不会破坏DataFrame的结构,而使用melt则会直接破坏pivot_table的结构,详细见练习2

2. 练习
【练习一】 继续使用上一章的药物数据集:
(a) 现在请你将数据表转化成如下形态,每行需要显示每种药物在每个地区的10年至17年的变化情况,且前三列需要排序:

df_USA = pd.read_csv('../data/Drugs.csv')
df_pivot = pd.pivot_table(df_USA, index=['State','COUNTY', 'SubstanceName'], columns='YYYY', values='DrugReports').reset_index().rename_axis(columns={'YYYY':''})
df_pivot = df_pivot.fillna('-')

在这里插入图片描述
(b) 现在请将(a)中的结果恢复到原数据表,并通过equal函数检验初始表与新的结果是否一致(返回True)¶

df_melt = df_pivot.melt(id_vars=['State', 'COUNTY', 'SubstanceName'], value_vars=df_pivot.columns[-8:], var_name='YYYY', value_name='DrugReports')\
            .replace('-', np.nan).dropna()
df_melt = df_melt.sort_values(by=['State','COUNTY','YYYY' ,'SubstanceName']).reset_index().drop(columns='index')
cols = list(df_melt.columns)
cols.remove('YYYY')
cols.insert(0, 'YYYY')
cols

[‘YYYY’, ‘State’, ‘COUNTY’, ‘SubstanceName’, ‘DrugReports’]

df_melt = df_melt[cols].astype({'DrugReports':'int64'})
df_USA = df_USA.sort_values(by=['State','COUNTY','YYYY' ,'SubstanceName']).reset_index().drop(columns='index')
df_USA.equals(df_melt)
True

【练习二】 现有一份关于某地区地震情况的数据集,请解决如下问题:
(a) 现在请你将数据表转化成如下形态,将方向列展开,并将距离、深度和烈度三个属性压缩:

df_eq = pd.read_csv('../data/Earthquake.csv')
df_stack = pd.pivot_table(df_eq, index=['日期', '时间', '维度', '经度'], columns='方向', values=['距离', '深度', '烈度'], fill_value='-').stack(0).rename_axis(index={None: '地震参数'})
df_stack

在这里插入图片描述

(b) 现在请将(a)中的结果恢复到原数据表,并通过equal函数检验初始表与新的结果是否一致(返回True)¶

# 切记这里unstack()不可以写成unstack(0),因为最外层的列unique太多了,会导致维度爆炸,使计算机死机
df_unstack = df_stack.unstack().stack(0).reset_index().replace('-', np.nan).dropna().sort_values(by=['日期', '时间', '维度', '经度'])\
                .reset_index().rename_axis(columns={'地震参数':''}).drop(columns='index')
cols = list(df_unstack.columns)
a, b, c = cols.index('深度'), cols.index('烈度'), cols.index('距离')
cols[a], cols[b], cols[c] = cols[c], cols[a], cols[b]
df_unstack = df_unstack[cols]
df_eq = df_eq.sort_values(by=['日期', '时间', '维度', '经度']).reset_index().drop(columns='index')
df_eq.equals(df_unstack)
True
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于pandas来说,它的持久化存储方式有多种,包括HDF5和CSV格式。在HDF5格式中,可以使用pandas的HDFStore类来创建与本地H5文件连接的IO对象,并使用store对象的键索引或get()方法来读取指定数据。例如,可以通过以下方式将数据存储到HDF5文件中: ``` import pandas as pd import numpy as np import time store = pd.HDFStore('store.h5') df = pd.DataFrame(np.random.rand(100000000,5)) # 生成一个1亿行,5列的标准正态分布随机数表 start1 = time.clock() store['df'] = df # 存储数据到HDF5文件 store.close() print(f'HDF5存储用时{time.clock()-start1}秒') ``` 另外,如果想从HDF5文件中读取数据,可以使用以下两种方式: ``` store = pd.HDFStore('demo.h5') df1 = store['df'] # 方式1:通过键索引读取数据 df2 = store.get('df') # 方式2:使用get()方法读取数据 df1 == df2 ``` 除了HDF5格式,还可以使用其他格式来持久化存储数据,比如CSV格式。可以使用pandas的to_csv()方法将数据存储为CSV文件,例如: ``` df.to_csv('df.csv',index=False) # 将数据存储为CSV文件 ``` 总结起来,pandas可以通过HDF5和CSV格式来实现数据的持久化存储。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [利用pandas读写HDF5文件](https://blog.csdn.net/kyle1314608/article/details/112391780)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值