Hive小知识点分享
一、Hive过滤条件 != ’‘ 使用问题
基础数据
where a != ‘0’
这里可以看到 为 null的数据丢失了
where a is not null
二、Reduce参数设置失效问题
调整reduce个数方式1:
set mapred.reduce.tasks = 5
调整reduce个数方式2:
set hive.exec.reducers.bytes.per.reducer=500000000
有以下3种情况会导致reduce个数为1
设置为5个
未使用group by进行汇总
使用了order by
总结:
1、没有group by 进行汇总
2、使用了order by
3、有笛卡尔积
三、Hive模糊Join的使用
使用函数 locat(’string‘,’string‘) return int
四、Hive数据倾斜参数的使用问题
set hive.groupby.skewindata=true
数据倾斜参数开启后,注意不可以使用两个distinct