大数据开发(20)-Skew join

&&大数据学习&&
🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

skew join的原理是,为倾斜的大key单独启动一个map join任务进行计算,其余key进行正常的common join。

在一般情况下,是否开启skewjoin取决于具体的使用场景。

skewjoin是一种优化技术,主要用于大数据处理中的join操作。当处理大表和大表之间的join操作时,可以考虑开启skewjoin来优化倾斜数据的处理。

具体来说,skewjoin的原理是在执行job时,将倾斜的key存储到临时的HDFS目录中,而其他数据则正常执行。对于倾斜数据开启mapjoin操作(多个map并行处理),对非倾斜值采取普通的join操作。

然而,是否需要开启skewjoin取决于你的数据和具体的业务需求。如果join操作涉及的数据倾斜并不严重,或者你可以接受较长的处理时间,那么可能并不需要开启skewjoin。另外,如果你的系统资源有限,或者你希望尽量减少内存的使用,那么也可能会选择不开启skewjoin。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值