HIVE SQL拒绝big int比较解决方法
在实际业务中,为了排查问题,有时候需要查看指定uid,shop_id的记录。往往这种id字段都是bigint类型数据,直接where uid = XXX会告警并停止查询。
鉴于这种情况下我们要查的数据一般只有一两条,所以可以限制
where uid in (XXX,YYYY)
and shop id in (ZZZ);
HIVE SQL 四分位数
对于int类型和double类型数据应使用不同的函数
--income是整型
percentile(order_cnt, array(0.25)) [0] as order_cnt --上四分位数
percentile(order_cnt, array(0.5)) [0] as order_cnt --中位数
--net_income是浮点型
percentile_approx(net_income, 0.25) as net_income_25
HIVE SQL 获取日期对应的周数
weekofyear('2022-09-20')
HIVE SQL向下取整
floor(s) --s为double类型
HIVE SQL 获取两个标准时间相差的秒数
获取两个日期之间相差的天数可以使用datediff函数
要获得秒数的思路是分别把两个时间转成unix秒数,再相减
unix_timestamp('2022-9-23 23:59:59', 'yyyy-MM-dd HH:mm:ss')-unix_timestamp('2022-9-23 23:31:22', 'yyyy-MM-dd HH:mm:ss')
At least 1 group must only depend on input columns
使用rank时出现了该报错,可以考虑partition by , over by和函数外的字段的位置。尤其是窗口的创建条件,肯能需要增加字段。
如何实现count (distinct ) over (partition by )
size(collect_set() over(partition by order by))