再见,Excel数据透视表;你好,pd.pivot_table

本文介绍了Excel数据透视表的基本使用方法,并通过实例展示了如何使用Pandas的pivot_table函数进行数据透视和分析。文章强调了pivot_table在数据聚合和重组方面的优势,并对比了pivot_table与pivot的区别,指出pivot_table更适合处理数值型变量,而pivot适用于分类变量的转换。
摘要由CSDN通过智能技术生成

导读

Excel作为Office常用办公软件之一,其在一名数据分析师的工作日常中也占有一定地位,比如个人就常常倾向于依赖Excel完成简单的数据处理和可视化作图,其中数据处理部分则主要是运用内置函数+数据透视表两大部分。

Excel数据透视表虽好,但在pandas面前它也有其不香的一面!

01 何为透视表

数据透视表,顾名思义,就是通过对数据执行一定的"透视",完成对复杂数据的分析统计功能,常常伴随降维的效果。例如在Excel工具栏数据透视表选项卡中通过悬浮鼠标可以看到这样的描述:

具体而言,以经典的泰坦尼克号数据集(github下载地址为 https://github.com/hitcszq/kaggle_titanic)为例,想要探索不同性别(Sex)和不同舱位等级(Embarked)下生存人数(Survived),那么仅需如下3步操作即可:

  • 选择Excel菜单栏中插入数据透视表选项卡

  • 分别拖动目标字段到相应行列位置,设置统计函数为求和

  • 得到统计好的数据透视表结果

至此,我们可以发现数据透视表中实际存在4个重要的设置项:

  • 行字段

  • 列字段

  • 统计字段

  • 统计方式(聚合函数)

值得指出的是,以上4个要素每一个都可以不唯一,例如可以拖动多个字段到行/列字段中形成二级索引,也可完成对不同字段的统计,以及拖动相同字段设置不同统计方法实现多种聚合。

02 利用pd.pivot_table实现

Pandas作为Python数据分析的瑞士军刀,实现个数据透视表自然不在话下,其接口函数为pivot_table,给出其核心参数如下:

  • values : 待聚合的列名

  • index : 用于放入透视表结果中的行索引列名

  • columns : 用于放入透视表结果中列索引列名

  • aggfunc : 聚合统计函数,可以是单个函数,也可以是函数列表,还可以是字典格式,默认聚合函数为均值。当该参数传入字典格式时,key为列名,value为聚合函数值,此时values参数无效

  • fill_value : 缺失值填充值,默认为None,即不对缺失值做任何处理。注意这里的缺失值是指透视后结果中可能存在的缺失值,而非透视前的原表中缺失值

  • margins : 指定是否加入汇总列,布尔值,默认为False,体现为Excel透视表中的行小计和列小计

  • margins_name : 汇总列的列名,与上一个参数配套使用,默认为'All',当margins为False时,该参数无作用

  • dropna : 是否丢弃汇总结果中全为NaN的行或列,默认为True。例如,行有3个取值,列有3个取值,经过透视表重组后理论上最多有3×3=9个结果,但实际可能只有3×2=6个非空值,其中全为空的一列默认舍弃

  • observed : 适用于分类变量,一般无需关注。

其中前4个参数是核心参数。

仍以titanic数据集为例,应用pivot_table完成前述数据透视表操作,默认情况下只需如下调用:

如果既需要统计不同性别各舱位下的生存人数(对应Survived=1),又想统计生存率(生存人数与该分组下总人数的比例),那么仅需在传入aggfunc参数时增加一个mean聚合函数即可:

更进一步地,如果需要增加行和列的小计统计,则可通过传入margins和margins_name参数:

最后,为了测试fill_value字段效果,以SibSp字段(同舱内亲友数量)作为行索引,得到初始透视表如下:

其中,当行索引和列索引对应的具体分组下的记录数为0时,得到的聚合结果为NaN,此时可通过指定fill_value参数来进一步填充,即:

实际上,上述效果就相当于执行完pivot_table的基础上再加一个fillna()函数即可。

03 pivot_table与pivot

pivot与pivot_table都含有pivot一词,所以功能上也有一定的相近之处。这里,理解pivot的含义主要在于变形,更确切的说是将一个长表整形为宽表,例如SQL中的经典场景列转行,表述的就是这个问题。那么二者的主要区别在于:

  • pivot仅适用于数据变形,即由长表变为宽表,相当于对数据进行了重组;而pivot_table除了数据重组外,还有一个额外的效果,即数据聚合,即若重组后对应的行标签和列标签下取值不唯一,此时按指定方法进行聚合;换言之,pivot能干的事情,pivot_table都能干,反之则不然。

  • pivot由于仅涉及行列重组和变形,所以一般更适用于分类变量;而pivot_table在重组的基础上还增加了聚合统计的过程,所以一般更适用于数值型变量,但对于支持分类变量统计的聚合函数(例如count),则pivot_table也可适用。


相关阅读:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值