笔记:利用Python进行数据分析 第7章

本文深入探讨了使用Python的pandas库进行数据规整化,包括合并数据集的多种方法,如数据库风格的DataFrame合并、索引上的合并、轴向连接和合并重叠数据。详细介绍了merge、concat、join以及如何处理重复列名和索引。此外,还讲解了数据重塑和转换,如利用pivot方法将长格式数据旋转为宽格式,以及数据清洗技巧,如移除重复数据、转换和替换值。
摘要由CSDN通过智能技术生成

数据规整化:清理、转换、合并、重塑

7.1 合并数据集

内置方式:
pandas.merge 可根据一个或多个键将不同DataFrame中的行连接起来。
pandas.concat 可以沿着一条轴将多个对象堆叠到一起。
实例方法combine_first 可以将重复数据编接在一起,用一个对象中的值填充另一个对象中的缺失值。

7.1.1 数据库风格的DataFrame合并
多对一的合并

在这里插入图片描述
在这里插入图片描述
如果两个对象的列名不同,可以分别进行指定:
在这里插入图片描述
默认情况下,merge做的是"inner"连接;结果中的键是交集。
其他方式还有"left"、“right"以及"outer”。

外连接求取的是键的并集,组合了左连接和右连接的效果:
在这里插入图片描述

多对多的合并

在这里插入图片描述
多对多连接产生的是行的笛卡尔积。连接方式只影响出现在结果中的键。

多个键的合并

传入一个由列名组成的列表即可:
在这里插入图片描述
在这里插入图片描述
结果中会出现哪些键组合取决于所选的合并方式。
警告: 在进行列-列连接时,DataFrame对象中的索引会被丢弃。

重复列名的处理

merge有个实用的suffixes选项,用于指定附加到左右两个DataFrame对象的重叠列名上的字符串:
在这里插入图片描述

merge的参数

在这里插入图片描述

7.1.2 索引上的合并

有时候,DataFrame中的连接键位于其索引中。在这种情况下,可以传入left_index=True或right_index=True(或两个都传)以说明索引应该被用作连接键:
在这里插入图片描述

层次化索引的合并

必须以列表的形式指明用作合并键的多个列(注意对重复索引值的处理):
在这里插入图片描述

合并双方的索引

在这里插入图片描述

join实例方法

更为方便地实现按索引合并。还可用于合并多个带有相同或相似索引的DataFrame对象,而不管它们之间有没有重叠的列:
在这里插入图片描述
支持参数DataFrame的索引跟调用者DataFrame的某个列之间的连接:
在这里插入图片描述
对于简单的索引合并,还可以向join传入一组DataFrame:
在这里插入图片描述

7.1.3 轴向连接

另一种数据合并运算也被称作连接(concatenation)、绑定(binding)或堆叠(stacking)。

NumPy有一个用于合并原始NumPy数组的concatenation函数:
在这里插入图片描述
对于pandas对象(如Series和DataFrame),带有标签的轴能够进一步推广数组的连接运算。pandas的concat函数提供了这种方式,调用concat可以将值和索引粘合在一起:
在这里插入图片描述
默认情况下,concat是在axis=0上工作的。

传入join='inner’可得到交集:
在这里插入图片描述
可以通过join_axes指定要在其他轴上使用的索引:
在这里插入图片描述
使用keys参数即可在连接轴上创建一个层次化索引:

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值