哪些情况下左联接的数据量比左表大？

对许

已于 2024-04-27 18:48:26 修改

阅读量922

点赞数 4

分类专栏： # Python # SQL 文章标签： python sql

于 2024-04-26 11:15:01 首次发布

本文链接：https://blog.csdn.net/weixin_55629186/article/details/138211718

版权

Python 同时被 2 个专栏收录

123 篇文章

订阅专栏

SQL

8 篇文章

订阅专栏

本文探讨了在SQL和Pandas左连接中，当右表与左表存在一对多或多对多关系且关联键有重复或NULL值时，可能导致左连接结果数据量大于左表的现象，并提供了相应的解决策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SQL和Pandas左连接

1、背景概述

本文主要探讨SQL和Pandas左连接数据量比左表大的问题。在某些情况下，执行左连接时，SQL和Pandas输出的结果会比左表数据量大。这是为什么呢？

左连接是关系型数据库中最常见的连接之一。它的作用是从左表中取出所有的行，以及与右表匹配的所有行。如果某个行在右表中没有匹配到，则会在输出结果中以NULL的形式呈现

2、问题描述

下面我们分别以Pandas和SQL为例演示这种情况

1）Pandas左连接

下面我们准备两个DataFrame，然后通过Pandas的merge函数来执行左连接

数据准备：

df1 = pd.DataFrame({'k': ['A', 'B', 'C'], 'v': [1, 2, 3]})
df2 = pd.DataFrame({'k': ['B', 'C', 'C', 'D'], 'n': [4, 5, 6, 7]})
print(df1.to_string())
'''
   k  v
0  A  1
1  B  2
2  C  3
'''
print(df2.to_string())
'''
   k  n
0  B  4
1  C  5
2  C  6
3  D  7
'''

使用Pandas左连接：

df = pd.merge(df1, df2, on='k', how='left')
print(df.to_string())
'''
   k  v    n
0  A  1  NaN
1  B  2  4.0
2  C  3  5.0
3  C  3  6.0
'''

2）SQL左连接

下面我们准备两个表，然后分别使用Presto、Hive和Spark对两表进行左连接关联

数据准备：

create table t1(
    k string,
    v bigint
)
insert into t1 values 
('A', 1),
('B', 2),
('C', 3)

create table t2(
    k string,
    n bigint
)
insert into t2 values 
('B', 4),
('C', 5),
('C', 6),
('D', 7)

分别使用Presto、Hive和Spark左连接：

select * from t1 left join t2 on t1.k=t2.k
+---+---+-----+-----+
|  k|  v|   k0|    n|
+---+---+-----+-----+
|  A|  1| NULL| NULL|
|  B|  2|    B|    4|
|  C|  3|    C|    5|
|  C|  3|    C|    6|
+---+---+-----+-----+