HIVE中的排序
Order by 是只通过一个reduce进行的完全的排序结果,对于特别大的数据集时候效率太慢,在多数情况下不需要进行全局排序。
此时换成Hive的sort by进行排序,sort by为每一个reduce进行排序,为每一个reducer产生一个排序文件。
在某些特殊的情况下,你需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做这件事。
HIVE中的排序
Order by 是只通过一个reduce进行的完全的排序结果,对于特别大的数据集时候效率太慢,在多数情况下不需要进行全局排序。
此时换成Hive的sort by进行排序,sort by为每一个reduce进行排序,为每一个reducer产生一个排序文件。
在某些特殊的情况下,你需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做这件事。