- 博客(4)
- 收藏
- 关注
转载 map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改); 2. 举例: a) 假设input目录下有1个文件a
2013-11-03 09:49:55 565
转载 hive中的distribute By
hive中的distribute by是控制在map端如何拆分数据给reduce端的。 hive会根据distribute by后面列,根据reduce的个数进行数据分发,默认是采用hash算法。 对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。 hive> select * from test09; OK
2013-11-03 09:49:15 881
转载 hive中的sort by
在hive中不光有order by操作,还有个sort by操作。两者执行的都是排序的操作,但有存在很大的不同。 还是用上次order by的例子来说明。 测试用例 hive> select * from test09; OK 100 tom 200 mary 300 kate 400 tim Time taken: 0.061 seconds hive> select
2013-11-03 09:48:27 638
转载 hive中的Order By
hive中的order by也是对一个结果集合进行排序,但是和关系型数据库又所有不同。 这不同的地方也是两者在底层架构区别的体现。 hive的参数hive.mapred.mode是控制hive执行mapred的方式的,有两个选项:strict和nonstrict,默认值是nonstrict。 这个两个值对order by的执行有着很大的影响。 测试用例 hive> select
2013-11-03 09:46:47 497
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人