Pandas知识点-合并操作merge

最新推荐文章于 2024-07-01 22:12:07 发布

小斌哥ge

最新推荐文章于 2024-07-01 22:12:07 发布

阅读量1.5w

点赞数 19

本文链接：https://blog.csdn.net/weixin_43790276/article/details/117716446

版权

数据分析必学知识专栏收录该内容

35 篇文章 36 订阅

订阅专栏

Pandas知识点-合并操作merge

merge()方法是Pandas中的合并操作，在数据处理过程中很常用，本文介绍merge()方法的具体用法。

一、基础合并操作

merge(left, right): 将两个DataFrame或Series合并到一起。left和right参数是必传参数，分别传入一个DataFrame或Series对象，合并的顺序与传入的顺序一致。从参数名left和right可以看出，merge()方法主要用于按列合并(横向合并)。

原理如下：

merge()方法也可以实现按行合并(纵向)的效果，需要两个DataFrame的列名完全一样，且要指定合并方式为outer。

如果两个DataFrame的列名完全相同，使用outer合并方式，效果是将两个DataFrame按行合并到一起。merge()默认的合并方式是inner(取交集)，列名完全相同时取交集合并的结果是空DataFrame。

原理如下：

其实，此时合并的原理也是按列合并，特殊的是两个DataFrame中列名完全一样，且没有指定on参数。merge()方法自动将所有列同时作为连接列，合并时取并集，所有的连接列在结果中都返回了，得到的效果就与按行合并一样。(理解how参数和on参数后就会明白，下文马上介绍)。

二、连接方式

how: 指定合并时使用的连接方式，连接方式有四种，默认为inner。

inner	内连	取key列的交集
outer	外连	取key列的并集
left	左连	使用左边df的key列
right	右连	使用右边df的key列

三、指定连接的列

on: 指定合并时用于连接(外连，内连，左连，右连)的列。默认为None，merge()方法自动识别两个DataFrame中名字相同的列，作为连接的列，如本文前面的例子中没有指定on参数，也自动识别了相同的列作为连接列。

合并时，先找到两个DataFrame中的连接列key，然后将第一个DataFrame中key列的每个值依次与第二个DataFrame中的key列进行匹配，匹配到一次结果中就会有一行数据。上面的left和right中key列都是k0~k2，k0~k2分别匹配到一次，共匹配三次，所以结果有三行。假如将k0~k2都改成k，则left中的每一个k可以与right中的k匹配到三次(many_to_many，后面会介绍)，共匹配9次，结果会有9行。

on参数指定的列必须在两个被合并DataFrame中都有，否则会报错。

on参数也可以指定多列，合并时按多个列进行连接。

在合并时，只有多个列的值同时相等，两个DataFrame才会匹配上。上面的例子中，用于连接的列是key1,key2，k0,k0在两个DataFrame中都有，匹配到一次，k1,k1匹配到两次，k2,k2和k2,k3等都没有匹配成功，所以结果为三行(默认合并方式为inner)。

原理如下：

四、两个DataFrame分别指定连接列

使用on参数时，指定的列必须在两个DataFrame中都有。merge()方法也支持两个DataFrame分别指定连接的列，此时不要求指定列在两个DataFrame中都有。

left_on: 指定第一个DataFrame中用于连接的列，默认为None。

right_on: 指定第二个DataFrame中用于连接的列，默认为None。

当left_on和right_on都指定一样的列时，与用on参数的结果一样。如果left_on和right_on指定不同的列，可能因为连接列的值匹配不上，结果是一个空DataFrame，将连接方式改成outer后才能得到非空的DataFrame。

left_on和right_on也可以指定一个array数组，长度与DataFrame中的列长度相等，连接原理不变。

left_index: 设置第一个DataFrame用行索引进行连接，默认为False。

right_index: 设置第二个DataFrame用行索引进行连接，默认为False。

left_on和right_on可以与left_index和right_index混合使用，当指定了其中一个DataFrame的连接列时，必须同时指定另一个DataFrame的连接列，否则会报错。两个DataFrame都有两种方式指定连接列，所以组合的方式有四种。

DataFrame	left	right
四种指定连接列的组合	left_on	right_on
	left_index	right_index
	left_on	right_index
	left_index	right_on

五、自定义相同列名的后缀

suffixes: 当被合并的两个DataFrame中有相同的列名时，会给列名拼接后缀以作区分，默认为('_x', '_y')。可以修改suffixes参数进行设置，传入长度为2的字符串元组。

六、连接列是否存在DataFrame中

indicator: 在结果中增加一列，显示连接列是否存在于两个DataFrame中。indicator默认为False，如果修改为True，会增加一列，增加的列名默认为_merge。

给indicator参数指定一个值，则将这个值作为新增列的列名。在新增的列中，如果连接列同时存在于两个DataFrame中，则对应的值为both，如果连接列只存在其中一个DataFrame中，则对应的值为left_only或right_only。

七、连接列的对应关系

validate: 用于指定两个DataFrame连接列的对应关系，有one_to_one(一对一)，one_to_many(一对多)，many_to_one(多对一)，many_to_many(多对多)四种对应方式。默认为None，merge()方法自动根据两个DataFrame的连接列采用适合的对应方式。

one_to_one: 检查两个DataFrame中的连接列，值必须唯一。

one_to_many: 检查第一个DataFrame中的连接列，值必须唯一。

many_to_one: 检查第二个DataFrame中的连接列，值必须唯一。

many_to_many: 两个DataFrame连接列中的值都可以不唯一。