Hive排序 sort by / distribute by / cluster by

  • distribute by
  • sort by(sort by limit n,limit将运行两次,一次reducer内排序limit n,一次从每个reducer里取n条放在一起进行limit)
    distribute by x 将x按照hash取模分配到不同的reducer里面,sort by y在reducer里面按照y排序
    如下图,三个框代表3个reducer(distribute by),里面按照scores进行了排序(sort by)
    (图片有误,应是取模)
    图片来自jokertiger
  • cluster by
    cluster by ${z} 等价于 distribute by ${z} sort by ${z}
    如图所示,按照sid取模分到不同reducer后再按照sid进行reducer内排序,最后count统计每个sid出现的次数
    在这里插入图片描述
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值