hive的排序有四种:
1. ORDER BY用于全局排序,就是对指定的所有排序键进行全局排序,使用ORDER BY的查询语句,最后会用一个Reduce Task来完成全局排序。与设置的ReduceTask个数无关
2.Sort By用于分区内排序,即保证每个Reduce任务内排序。sort by只保证每个reducer的输出有序,不保证全局有序
3.distribute by(字段)根据指定的字段将数据分到不同的reducer,且分发算法是hash散列
4.cluster by(字段)如果distribute by和sort by字段是同一个时,此时,cluster by=distribute by+sort by。当reduce的个数少于key的个数的时候,是有意义的
# 博学谷IT 技术支持