hive sql join优化

1.分区过滤

  • 分区过滤什么什么意思:如果不加分区,默认会扫描整个表的数据
  • 分区用什么来描述:一般有时间,如year,month,day,hour,当正常表的字段使用
  • 怎么知道一个表是否有分区
    • 看表的字段是否有类似“month,day,hour”这样的字段
    • show partitions databaseName.tableName
  • 怎么知道加的分区是否有效
  • 执行的sql会有日志,如果map个数感觉比较多,分区过滤放置的位置可能不对
  • EXPLAIN AUTHORIZATION query

2.分区的使用

  • 普通查询,分区过滤放在where后面,如

    select  from  table1 t1  where  t1. date  between  '20151205'  and   '20151206'

    说明:

    • var between 'a' and 'b'意思是var>='a' and var<='b'

  • inner join,分区过滤放在where后面,如

    select  from  table1 t1  join  table  t2  on  (t1.id=t2.id)  where  t1. date  between  '20151205'  and   '20151206'  and  t2. date  between  '20151205'  and   '20151206'

    说明:

    • a join b 两个表都需要过滤条件,如果只写一个只会过滤对应的表
  • left join,左边表的分区过滤放在where后面,右边表分区过滤放在on后面,如

    select  from  table1 t1  left  join  table  t2  on  (t1.id=t2.id  and  t2. date  between  '20151205'  and   '20151206' where  t1. date  between  '20151205'  and   '20151206'

    说明:

    • right join相反
  • 参考

3.查看sql依赖的表和分区

  • 使用explain dependency sql
  • 除了分区条件的放置之外其他的条件也类似,如t2.`order_type`='3'放置在where后面则是在join之后进行过滤,放在on后面则是在join之前过滤
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值