pandas数据合并--merge

最新推荐文章于 2024-06-12 16:39:57 发布

GISer_流浪

最新推荐文章于 2024-06-12 16:39:57 发布

阅读量1k

点赞数 1

文章标签： pandas

本文链接：https://blog.csdn.net/weixin_44346222/article/details/87924740

版权

本文详细介绍了pandas的merge函数，包括数据库风格的数据合并、根据索引合并以及多对多、多对一的合并场景。讲解了连接方式、合并类型（内连接、外连接）以及如何处理重复列名。此外，还探讨了层次化索引在合并中的应用。

摘要由CSDN通过智能技术生成

本文参考《利用python进行数据分析》

简述

pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。SQL或其他关系型数据库的用户对此应该会比较熟悉，因为它实现的就是数据库的join操作。

merge参数说明
连接方式

数据库风格的DataFrame合并

数据集的合并（merge）或连接（join）运算是通过一个或多个键将行连接起来的。这些运算是关系型数据库（基于SQL）的核心。pandas的merge函数是对数据应用这些算法的主要切入点。

以一个简单的例子开始：

In [35]: df1 = pd.DataFrame({
   'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
   ....:                     'data1': range(7)})

In [36]: df2 = pd.DataFrame({
   'key': ['a', 'b', 'd'],
   ....:                     'data2': range(3)})

In [37]: df1
Out[37]: 
   data1 key
0      0   b
1      1   b
2      2   a
3      3   c
4      4   a
5      5   a
6      6   b

In [38]: df2
Out[38]: 
   data2 key
0      0   a
1      1   b
2      2   d

这是一种多对一的合并。df1中的数据有多个被标记为a和b的行，而df2中key列的每个值则仅对应一行。对这些对象调用merge即可得到：

In [39]: pd.merge(df1, df2) #内连接
Out[39]: 
   data1 key  data2
0      0   b      1
1      1   b      1
2      6   b      1
3      2   a      0
4      4   a      0
5      5   a      0

注意，我并没有指明要用哪个列进行连接。如果没有指定，merge就会将重叠列的列名当做键。不过，最好明确指定一下：

In [40]: pd.merge(df1, df2, on='key') 
Out[40]: 
   data1 key  data2
0      0   b      1
1      1   b      1
2      6   b      1
3      2   a      0
4      4   a      0
5      5   a      0

如果两个对象的列名不同，也可以分别进行指定：

In [41]: df3 = pd.DataFrame({
   'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
   ....:                     'data1': range(7)})

In [42]: df4 = pd.DataFrame({
   'rkey': ['a', 'b', 'd'],
   ....:                     'data2': range(3)})

In [43]: pd.merge(df3, df4, left_on='lkey', right_on='rkey')
Out[43]: 
   data1 lkey  data2 rkey
0      0    b      1    b
1      1    b      1    b
2      6    b

最低0.47元/天解锁文章

GISer_流浪

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pandas数据合并--merge

本文参考《利用python进行数据分析》简述pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。SQL或其他关系型数据库的用户对此应该会比较熟悉，因为它实现的就是数据库的join操作。merge参数说明连接方式数据库风格的DataFrame合并数据集的合并（merge）或连接（join）运算是通过一个或多个键将行连接起来的。这些运算是关系型数据库（...
复制链接

扫一扫