再见，Excel数据透视表；你好，pd.pivot_table

最新推荐文章于 2024-04-16 11:53:02 发布

小数志

最新推荐文章于 2024-04-16 11:53:02 发布

阅读量223

点赞数

文章标签：数据分析大数据 python 人工智能数据挖掘

本文链接：https://blog.csdn.net/weixin_43841688/article/details/112343424

版权

本文介绍了Excel数据透视表的基本使用方法，并通过实例展示了如何使用Pandas的pivot_table函数进行数据透视和分析。文章强调了pivot_table在数据聚合和重组方面的优势，并对比了pivot_table与pivot的区别，指出pivot_table更适合处理数值型变量，而pivot适用于分类变量的转换。

摘要由CSDN通过智能技术生成

导读

Excel作为Office常用办公软件之一，其在一名数据分析师的工作日常中也占有一定地位，比如个人就常常倾向于依赖Excel完成简单的数据处理和可视化作图，其中数据处理部分则主要是运用内置函数+数据透视表两大部分。

Excel数据透视表虽好，但在pandas面前它也有其不香的一面！

01 何为透视表

数据透视表，顾名思义，就是通过对数据执行一定的"透视"，完成对复杂数据的分析统计功能，常常伴随降维的效果。例如在Excel工具栏数据透视表选项卡中通过悬浮鼠标可以看到这样的描述：

具体而言，以经典的泰坦尼克号数据集（github下载地址为 https://github.com/hitcszq/kaggle_titanic）为例，想要探索不同性别（Sex）和不同舱位等级（Embarked）下生存人数（Survived），那么仅需如下3步操作即可：

选择Excel菜单栏中插入数据透视表选项卡

分别拖动目标字段到相应行列位置，设置统计函数为求和

得到统计好的数据透视表结果

至此，我们可以发现数据透视表中实际存在4个重要的设置项：

行字段
列字段
统计字段
统计方式（聚合函数）

值得指出的是，以上4个要素每一个都可以不唯一，例如可以拖动多个字段到行/列字段中形成二级索引，也可完成对不同字段的统计，以及拖动相同字段设置不同统计方法实现多种聚合。

02 利用pd.pivot_table实现

Pandas作为Python数据分析的瑞士军刀，实现个数据透视表自然不在话下，其接口函数为pivot_table，给出其核心参数如下：

values : 待聚合的列名
index : 用于放入透视表结果中的行索引列名
columns : 用于放入透视表结果中列索引列名
aggfunc : 聚合统计函数，可以是单个函数，也可以是函数列表，还可以是字典格式，默认聚合函数为均值。当该参数传入字典格式时，key为列名，value为聚合函数值，此时values参数无效
fill_value : 缺失值填充值，默认为None，即不对缺失值做任何处理。注意这里的缺失值是指透视后结果中可能存在的缺失值，而非透视前的原表中缺失值
margins : 指定是否加入汇总列，布尔值，默认为False，体现为Excel透视表中的行小计和列小计
margins_name : 汇总列的列名，与上一个参数配套使用，默认为'All'，当margins为False时，该参数无作用
dropna : 是否丢弃汇总结果中全为NaN的行或列，默认为True。例如，行有3个取值，列有3个取值，经过透视表重组后理论上最多有3×3=9个结果，但实际可能只有3×2=6个非空值，其中全为空的一列默认舍弃
observed : 适用于分类变量，一般无需关注。

其中前4个参数是核心参数。

仍以titanic数据集为例，应用pivot_table完成前述数据透视表操作，默认情况下只需如下调用：