Pandas Task4 变形
1. 问题
【问题一】 上面提到了许多变形函数,如melt/crosstab/pivot/pivot_table/stack/unstack函数,请总结它们各自的使用特点。
pivot函数是透视表,不过局限性比较大,除了功能上较少之外,还不允许values中出现重复的行列索引对;
pivot_table是pivot函数的引申,允许出现行索引的重复,默认为求均值mean,与pivot相比,运行速度较慢;
melt函数相当于pivot_table的逆操作,将unstacked状态的数据,压缩成stacked,使“宽”的DataFrame变“窄”,即相当于多列数据压缩在一列里面;
crosstab是交叉表,交叉表是一种特殊的透视表,典型的用途如分组统计,若参数不给定默认为统计个数count
stack函数是最基本的变形函数,顾名思义就是压缩,总共只有两个参数:level和dropna,stack函数可以看做将横向的索引放到纵向,因此功能类似与melt,参数level可指定变化的列索引是哪一层(或哪几层,需要列表)¶,比如stack(0)相当于压缩最外层的行,若没给定数值stack()相当于压缩最内层的行
unstack函数是stack函数的逆操作,即解压,性质与stack函数类似
【问题二】 变形函数和多级索引是什么关系?哪些变形函数会使得索引维数变化?具体如何变化?
相似的关系,近似对DataFrame分组;melt会使索引维度增加
【问题三】 请举出一个除了上文提过的关于哑变量方法的例子。
【问题四】 使用完stack后立即使用unstack一定能保证变化结果与原始表完全一致吗?
不一定,经过测试发现结果不一样
【问题五】 透视表中涉及了三个函数,请分别使用它们完成相同的目标(任务自定)并比较哪个速度最快。
【问题六】 既然melt起到了stack的功能,为什么再设计stack函数?¶
stack是有针对性的处理,比如在pivot_table处理后使用stack,不会破坏DataFrame的结构,而使用melt则会直接破坏pivot_table的结构,详细见练习2
2. 练习
【练习一】 继续使用上一章的药物数据集:
(a) 现在请你将数据表转化成如下形态,每行需要显示每种药物在每个地区的10年至17年的变化情况,且前三列需要排序:
df_USA = pd.read_csv('../data/Drugs.csv')
df_pivot = pd.pivot_table(df_USA, index=['State','COUNTY', 'SubstanceName'], columns='YYYY', values='DrugReports').reset_index().rename_axis(columns={
'YYYY':''}