- distribute by
- sort by(sort by limit n,limit将运行两次,一次reducer内排序limit n,一次从每个reducer里取n条放在一起进行limit)
distribute by x 将x按照hash取模分配到不同的reducer里面,sort by y在reducer里面按照y排序
如下图,三个框代表3个reducer(distribute by),里面按照scores进行了排序(sort by)
(图片有误,应是取模)

- cluster by
cluster by ${z} 等价于 distribute by ${z} sort by ${z}
如图所示,按照sid取模分到不同reducer后再按照sid进行reducer内排序,最后count统计每个sid出现的次数

Hive排序 sort by / distribute by / cluster by
最新推荐文章于 2024-02-13 18:02:52 发布
1805

被折叠的 条评论
为什么被折叠?



