四种排序方法:
order by 是全局排序,全局排序的限制就是只有一个reduce进行数据排序处理,数据量大的话,运行效率要考虑
sort by 是数据在进入reduce之前进行排序,如果reduce个数大于1,则不能保证数据的排序
distribute by 是控制map端数据的分发,即相同key值的数据分发到相同的reduce,一般和sort by一起使用
cluster by ,如果sort by,与distribute by对应的字段是一致的,则使用cluster by 代替sort by distribute by
四种排序:order by,sort by,distribute by,cluster by
最新推荐文章于 2023-06-22 12:32:31 发布