Hadoop参数性能调优(二)--Map and Reduce tasks 数量

最新推荐文章于 2022-07-10 11:58:33 发布

xiejava

最新推荐文章于 2022-07-10 11:58:33 发布

阅读量1.1w

点赞数

分类专栏： Hadoop 文章标签： hadoop input 负载均衡任务集群

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiejava/article/details/6428805

版权

Hadoop wiki(http://wiki.apache.org/hadoop/HowManyMapsAndReduces)对这个问题有较详细的解释，大致有以下几个观点：

增加task的数量，一方面增加了系统的开销，另一方面增加了负载平衡和减小了任务失败的代价；
map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了一个Job拥有多少个map。默认input split的大小是64M（与dfs.block.size的默认值相同）。然而，如果输入的数据量巨大，那么默认的64M的block会有几万甚至几十万的Map Task，集群的网络传输会很大，最严重的是给Job Tracker的调度、队列、内存都会带来很大压力。mapred.min.split.size这个配置项决定了每个 Input Split的最小值，用户可以修改这个参数，从而改变map task的数量。
一个恰当的map并行度是大约每个节点10-100个map，且最好每个map的执行时间至少一分钟。
reduce task

最低0.47元/天解锁文章

博客等级

码龄17年

18
原创

7
点赞

13
收藏

17
粉丝

关注

私信

热门文章

分类专栏

最新评论

HadoopDB集群配置方法
Zoin: hive> select name from raw; Total MapReduce jobs = 1 Number of reduce tasks is set to 0 since there's no reduce operator Job Submission failed with exception 'java.lang.NullPointerException(null)' FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.ExecDriver 这种错误楼主有什么思路吗。。
HadoopDB集群配置方法
Zoin: 解决了，我用的hadoop是2.6的，用0.20.2的hadoop就行。。可是为什么最后一步我select没出数据，是空的
HadoopDB集群配置方法
Zoin: 而且在SMS的hive里创建普通表也会报这个错，不知道为啥 zoin@master:~/Desktop/hadoopdb/dist$ bin/hive WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files. Hive history file=/tmp/zoin/hive_job_log_zoin_201812021803_511481248.txt hive> create table rawraw (id int,name string); Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.security.UserGroupInformation.readFrom(Lorg/apache/hadoop/conf/Configuration;)Lorg/apache/hadoop/security/UserGroupInformation;
HadoopDB集群配置方法
Zoin: at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:258) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.util.RunJar.run(RunJar.java:221) at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
HadoopDB集群配置方法
Zoin: hive> CREATE EXTERNAL TABLE raw ( > ID int, > NAME string > ) > ROW FORMAT DELIMITED > FIELDS TERMINATED BY ' ' > STORED AS > INPUTFORMAT 'edu.yale.cs.hadoopdb.sms.connector.SMSInputFormat' > OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' > LOCATION '/db/raw'; Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.security.UserGroupInformation.readFrom(Lorg/apache/hadoop/conf/Configuration;)Lorg/apache/hadoop/security/UserGroupInformation; at org.apache.hadoop.hive.conf.HiveConf.getUser(HiveConf.java:400) at org.apache.hadoop.hive.ql.exec.DDLTask.createTable(DDLTask.java:761) at org.apache.hadoop.hive.ql.exec.DDLTask.execute(DDLTask.java:100) at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:335) at org.apache.hadoop.hive.ql.Driver.run(Driver.java:241) at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:122) at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:165

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。