HIVE 中内连接(JOIN ON)与LEFT SEMI JOIN查询结果不一致的分析

由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的,但是由于实际情况的不一样,子表中数据的差异导致结果也不太一样。
 
写法一:

Java代码   收藏代码
  1. select  
  2.            a.bucket_id,  
  3.         a.search_type,  
  4.             a.level1,  
  5.         a.name1,  
  6.         a.level2,  
  7.         a.name2,  
  8.         cast((a.alipay_fee) as double) as zhuliu_alipay,  
  9.         cast(0 as double) as total_alipay  
  10.         from tmall_data_fdi_search_zhuliu_alipay_cocerage_bucket_1 a  
  11.      left semi join  
  12.      tmall_data_fdi_dim_main_auc b  
  13.      on (a.level2 = b.cat_id2  
  14.          and a.brand_id = b.brand_id  
  15.        and b.cat_id2 > 0  
  16.          and b.brand_id > 0  
  17.          and b.max_price = 0  
  18.      )  

3121 条
写法二:
Java代码   收藏代码
  1. select  
  2.            a.bucket_id,  
  3.         a.search_type,  
  4.             a.level1,  
  5.         a.name1,  
  6.         a.level2,  
  7.         a.name2,  
  8.         cast((a.alipay_fee) as double) as zhuliu_alipay,  
  9.         cast(0 as double) as total_alipay  
  10.         from tmall_data_fdi_search_zhuliu_alipay_cocerage_bucket_1 a  
  11.      join   tmall_data_fdi_dim_main_auc b  
  12.      on (a.level2 = b.cat_id2  
  13.          and a.brand_id = b.brand_id)  
  14.   where  b.cat_id2 > 0  
  15.          and b.brand_id > 0  
  16.          and b.max_price = 0  


结果是:3142


这两种写法带来的值居然不是相等的,我一直以为理解这两种方式的写法是一样的,
但是统计的结果却是不一样的。
目前还没有搞清楚是什么原因,谁能那个搞清楚呢。


经过一层一层的查找,发现是由于子表(tmall_data_fdi_dim_main_auc)中存在重复的数据,当使用JOIN ON的时候,A,B表会关联出两条记录,应为ON上的条件符合;
而是用LEFT SEMI JOIN 当A表中的记录,在B表上产生符合条件之后就返回,不会再继续查找B表记录了,所以如果B表有重复,也不会产生重复的多条记录。

大多数情况下JOIN ON 和left semi on是对等的,但是在上述情况下会出现重复记录。大家以后可要小心。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值