P4

最新推荐文章于 2024-06-02 20:11:24 发布

瘦与狗

最新推荐文章于 2024-06-02 20:11:24 发布

阅读量157

点赞数

分类专栏：笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_51503843/article/details/110247799

版权

笔记专栏收录该内容

19 篇文章 0 订阅

订阅专栏

一、知知知…

pivot与pivot_table
一般状态下，数据在DataFrame会以压缩（stacked）状态存放，例如上面的Gender，两个类别被叠在一列中，pivot函数可将某一列作为新的cols。然而pivot函数具有很强的局限性，除了功能上较少之外，还不允许values中出现重复的行列索引对（pair）。pivot_table函数的功能比 pivot 更强大，更人性化，但运算速度也更慢

df = pd.read_csv(r'C:\Users\YANG\Desktop\joyful-pandas-master\data\table.csv')
print(df.head())
print(df.pivot(index='ID', columns='Gender', values='Height').head()))
print(pd.pivot_table(df,index='ID',columns='Gender',values='Height').head())

pivot_table 的参数

①aggfunc：对组内进行聚合统计，可传入各类函数，默认为’mean’

pd.pivot_table(df,index='School',columns='Gender',values='Height',aggfunc=['mean','sum'])

②margins：汇总边际状态

pd.pivot_table(df,index='School',columns='Gender',values='Height',aggfunc=['mean','sum'],margins=True)

③行、列、值都可以为多级

pd.pivot_table(df,index=['School','Class'], columns=['Gender','Address'], values=['Height','Weight'])

crosstab（交叉表），交叉表是一种特殊的透视表，典型的用途如分组统计

print(pd.crosstab(index=df['Address'],columns=df['Gender']))
'''
Gender    F  M
Address       
street_1  1  2
street_2  4  2
street_4  3  5
street_5  3  3
street_6  5  1
street_7  3  3
'''

crosstab 的参数

① values和aggfunc：分组对某些数据进行聚合操作，这两个参数必须成对出现

② normalize参数，可选’all’,‘index’,'columns’参数值

其他

① melt函数可以认为是pivot函数的逆操作，将unstacked状态的数据，压缩成stacked，使“宽”的DataFrame变“窄”

②stack函数可以看做将横向的索引放到纵向，因此功能类似与melt，有两个参数：level和dropna

③ unstack：stack的逆函数，功能上类似于pivot_table

④ get_dummies函数，其功能主要是进行one-hot编码

⑤factorize方法主要用于自然数编码，并且缺失值会被记做-1，其中sort参数表示是否排序后赋值

二、题题题…

问题

【问题一】上面提到了许多变形函数，如melt/ crosstab /pivot/pivot_table/ stack /unstack函数，请总结它们各自的使用特点。

答： pivot 函数一般用于做透视表。pivot_table 可以说是pivot 的改进版，如它能将pivot 中不允许values中出现重复的行列索引对（pair）的缺点完美解决。crosstab（交叉表）交叉表是一种特殊的透视表，典型的用途如分组统计。melt函数可以认为是pivot函数的逆操作，将unstacked状态的数据，压缩成stacked，使“宽”的DataFrame变“窄”。stack（压缩）：可以将横向的索引放到纵向。unstack（展开）：stack的逆函数，功能类似于透视表

【问题二】变形函数和多级索引是什么关系？哪些变形函数会使得索引维数变化？具体如何变化？

答：关系？变形函数用于对数据展现形式进行整理，多级索引用于提取符合条件的数据。melt会使索引维度增加

【问题三】请举出一个除了上文提过的关于哑变量方法的例子

答：

df_d = df[['School','Class','Physics']]
print(pd.get_dummies(df_d[['School','Class']]).head())
'''
   School_S_1  School_S_2  Class_C_1  Class_C_2  Class_C_3  Class_C_4
0           1           0          1          0          0          0
1           1           0          1          0          0          0
2           1           0          1          0          0          0
3           1           0          1          0          0          0
4           1           0          1          0          0          0
'''

【问题四】使用完stack后立即使用unstack一定能保证变化结果与原始表完全一致吗？

答：不能

【问题六】既然melt起到了stack的功能，为什么再设计stack函数？

答：问得好，因为stack函数更强大

瘦与狗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
P4

一、知知知…pivot与pivot_table一般状态下，数据在DataFrame会以压缩（stacked）状态存放，例如上面的Gender，两个类别被叠在一列中，pivot函数可将某一列作为新的cols。然而pivot函数具有很强的局限性，除了功能上较少之外，还不允许values中出现重复的行列索引对（pair）。pivot_table函数的功能比 pivot 更强大，更人性化，但运算速度也更慢df = pd.read_csv(r'C:\Users\YANG\Desktop\joyful-pan
复制链接

扫一扫