wuzhongdehua-CSDN博客

转载 map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)； 2. 举例： a) 假设input目录下有1个文件a

2013-11-03 09:49:55 565

转载 hive中的distribute By

hive中的distribute by是控制在map端如何拆分数据给reduce端的。 hive会根据distribute by后面列，根据reduce的个数进行数据分发，默认是采用hash算法。对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。 hive> select * from test09; OK

2013-11-03 09:49:15 881

转载 hive中的sort by

在hive中不光有order by操作，还有个sort by操作。两者执行的都是排序的操作，但有存在很大的不同。还是用上次order by的例子来说明。测试用例 hive> select * from test09; OK 100 tom 200 mary 300 kate 400 tim Time taken: 0.061 seconds hive> select

2013-11-03 09:48:27 638

转载 hive中的Order By

hive中的order by也是对一个结果集合进行排序，但是和关系型数据库又所有不同。这不同的地方也是两者在底层架构区别的体现。 hive的参数hive.mapred.mode是控制hive执行mapred的方式的，有两个选项：strict和nonstrict，默认值是nonstrict。这个两个值对order by的执行有着很大的影响。测试用例 hive> select

2013-11-03 09:46:47 497

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 map和reduce 个数的设定 （Hive优化）经典

转载 hive中的distribute By

转载 hive中的sort by

转载 hive中的Order By

空空如也

空空如也

转载 map和reduce 个数的设定（Hive优化）经典