自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 map和reduce 个数的设定 (Hive优化)经典

一、   控制hive任务中的map数:  1.   通常情况下,作业会通过input的目录产生一个或者多个map任务。  主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改); 2.   举例:  a)   假设input目录下有1个文件a

2013-11-03 09:49:55 565

转载 hive中的distribute By

hive中的distribute by是控制在map端如何拆分数据给reduce端的。 hive会根据distribute by后面列,根据reduce的个数进行数据分发,默认是采用hash算法。 对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。 hive> select * from test09; OK

2013-11-03 09:49:15 881

转载 hive中的sort by

在hive中不光有order by操作,还有个sort by操作。两者执行的都是排序的操作,但有存在很大的不同。 还是用上次order by的例子来说明。 测试用例 hive> select * from test09; OK 100 tom 200 mary 300 kate 400 tim Time taken: 0.061 seconds hive> select

2013-11-03 09:48:27 638

转载 hive中的Order By

hive中的order by也是对一个结果集合进行排序,但是和关系型数据库又所有不同。 这不同的地方也是两者在底层架构区别的体现。 hive的参数hive.mapred.mode是控制hive执行mapred的方式的,有两个选项:strict和nonstrict,默认值是nonstrict。 这个两个值对order by的执行有着很大的影响。 测试用例 hive> select

2013-11-03 09:46:47 497

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除