1. 需求
由于业务需要,现有A, B,两个表,表数据量在以下
表A:1080000数据,
表B:88w条数据
两个表相同的字段为 name
inner join 得到87w数据,如何得到B表多余的1w数据
2. 问题
我憨憨的使用了以下sql
select * from B where name not in (select * from A inner join B on A.name = B.name)
结果执行了十几分钟都没有结果
3. 解决
SELECT name,COUNT(*) count from (SELECT A.name FROM A INNER JOIN B on A.name = B.name UNION all SELECT name from B) a GROUP BY a.name HAVING count = 1
- 根据 SELECT A.name FROM A INNER JOIN B on A.name = B.name sql 获取交集数据
- 根据 SELECT A.name FROM A INNER JOIN B on A.name = B.name UNION all SELECT name from B 把两个数据集叠加(UNION all不去掉重复的,union去掉重复的),获取所有的数据集合,并且不要去掉重复的,是为了让重复数据的 count(*),在group by 以后 变为2,差集自然为1
4. 大体思路
例如:
A表有
1, 2, 3, 4, 5
B表有
2, 3, 4, 6, 7, 8
我要得到B表不在A表数据的
6, 7, 8
- 根据inner join 得到重复的数据 a
2, 3, 4
- 根据 a union B表 合并数据得到
2, 3, 4, 6, 7, 8, 2, 3, 4
- 这个时候就可以用 group by 和 having 找到 count =1 的数据,就是差集