【SQL】数据倾斜处理之加盐哈希

【SQL】数据倾斜处理之加盐哈希
处理数据倾斜最好的办法就是将数据打散,其中加盐哈希最为常用。

之前面阿里被问到如何加盐哈希。

其实就是将一个阶段处理拆分为两个阶段出来,比如以前是 key1(60),key2(20),key3(20),在这个字段上做聚合。加盐之后,可以分散为 1_key1(20),2_key1(20),3_key1(20),key2(20),key3(20),此时数据就较为平均。在处理过后的字段上聚合再做处理。

例如:

select
	date,
	app_id,
	count(uid) as pv
from
	source_tb
group by
	date,
	app_id;

某个 app 流量远超其他 app 就可能倾斜,因此可以改写:

with t1 as (
	select
    	date,
    	-- 加随机前缀,用 “_” 连接
    	concat(cast(cast(RAND()*100 as int) as string), "_", app_id) as new_app_id,
    	uid
    from
    	source_tb
),
t2 as (
	select
    	date,
    	new_app_id,
    	count(uid) as pv
    from
    	t1
    group by
    	date,
    	app_id
)
select
	date,
	-- 用 “_” 拆分为两个部分,第二个部分为原始的 app_id
	split(new_app_id,'_')[1] as app_id,
	sum(pv) as pv
from
	t2
group by
	date,
	split(new_app_id,'_')[1]
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值