![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 60
zddhuier
这个作者很懒,什么都没留下…
展开
-
(转)提高hadoop的mapreduce job效率
[size=large][color=black]hadoop 的mapreduce 的作业在运行过程中常常碰到一些这样的情 况:每一个map或者reduce只有30-40秒钟就结束超 大规模的job 时,通常会需要大量的map和reduce的slots 支持,但是job运行起来后,running的map和reduce并没有沾满集群的可用slots当几乎所有的map和 reducers...原创 2014-10-11 16:36:32 · 279 阅读 · 0 评论 -
(转)Hive中小表与大表关联(join)的性能分析
[color=black][size=large]经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该...原创 2014-11-03 21:31:28 · 183 阅读 · 0 评论 -
(转)深度分析如何在Hadoop中控制Map的数量
[size=large]很 多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多 少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的 Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动...原创 2014-11-03 22:07:59 · 76 阅读 · 0 评论