- 写hql的需要的注意点:
- 尽量使用group by 代替distinct
- 用小表join大表
- join 时右侧表的关联字段要求是distinct的,否则会出现笛卡尔积现象,如a.v1列值为1,1,1,2;b.v1列值为1,1,对于a join b on a.v1=b.v1,会出现笛卡尔积:a的三个1会分别与b的两个1进行join。
- 谨慎使用开窗函数,使用不当会造成大量的重复计算。如在统计特征:当前sku的cid3过去7天的平均每天ord的用户数量,在每个cid3有大量sku的情况下,使用开窗函数会造成大量的重复计算,导致运行时间长、严重吃内存。
hive中曾踩过的坑
最新推荐文章于 2022-07-15 18:32:54 发布