Hadoop 优化

最新推荐文章于 2024-07-25 11:17:10 发布

万里长江横渡

最新推荐文章于 2024-07-25 11:17:10 发布

阅读量1.2k

点赞数

分类专栏：大数据文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44870066/article/details/126033040

版权

大数据专栏收录该内容

38 篇文章 3 订阅

订阅专栏

Hadoop优化主要分为五个方面：小文件处理、Map阶段、Reduce阶段、IO处理、整体运算调优

一、HDFS小文件处理

【小文件对系统的影响】

（1）影响 NameNode 的寿命，因为文件元数据存储在 NameNode 的内存中

（2）影响计算引擎的任务数量，比如每个小的文件都会生成一个 Map 任务

【小文件常见的处理方式】
（1）合并小文件：对小文件进行归档（Har）、自定义 Inputformat 将小文件存储成SequenceFile 文件。

（2）采用 ConbinFileInputFormat 来作为输入，解决输入端大量小文件场景。

（3）对于大量小文件 Job，可以开启 JVM 重用。

二、Map阶段优化

（1）增大环形缓冲区大小。由 100m 扩大到 200m

（2）增大环形缓冲区溢写的比例。由 80%扩大到 90%

（3）减少对溢写文件的 merge 次数。（10 个文件，一次 20 个 merge）

（4）不影响实际业务的前提下，采用 Combiner 提前合并，减少 I/O。

三、Reduce阶段优化

（1）合理设置 Map 和 Reduce 数：两个都不能设置太少，也不能设置太多。太少，会导致 Task 等待，延长处理时间；太多，会导致 Map、Reduce 任务间竞争资源，造成处理超时等错误。

（2）设置 Map、Reduce 共存：调整 slowstart.completedmaps 参数，使 Map 运行到一定程度后，Reduce 也开始运行，减少 Reduce 的等待时间。

（3）规避使用 Reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗。

（4）增加每个 Reduce 去 Map 中拿数据的并行数

（5）集群性能可以的前提下，增大 Reduce 端存储数据内存的大小。

四、IO传输

（1）采用数据压缩的方式，减少网络 IO 的的时间。安装 Snappy 和 LZOP 压缩编码器。

（2）使用 SequenceFile 二进制文件

五、整体运算调优

（1）MapTask 默认内存大小为 1G，可以增加 MapTask 内存大小为 4-5g

（2）ReduceTask 默认内存大小为 1G，可以增加 ReduceTask 内存大小为 4-5g

（3）可以增加 MapTask 的 cpu 核数，增加 ReduceTask 的 CPU 核数

（4）增加每个 Container 的 CPU 核数和内存大小

（5）调整每个 Map Task 和 Reduce Task 最大重试次数

万里长江横渡

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Hadoop 优化

Hadoop 优化
复制链接

扫一扫

专栏目录

万里长江横渡 CSDN认证博客专家 CSDN认证企业博客

码龄5年

124: 原创

3万+: 周排名

10万+: 总排名

23万+: 访问

: 等级

1473: 积分

1091: 粉丝

174: 获赞

16: 评论

844: 收藏

私信

关注

热门文章

分类专栏

hive 9篇
大数据 38篇
kafka 3篇
Spark 7篇
flink 2篇
java 2篇
用户画像 2篇
数据同步 1篇
学习
yml配置
Spring 2篇
ajax
SpringMVC 1篇

最新评论

Hadoop关闭安全模式
2201_75928161: 求求解答，关闭了安全模式再创建input 还是说处于安全模式，怎么办
hive窗口函数(开窗函数)
daleHaven: 这篇文章关于窗口函数表达式介绍的很好，希望大家结合实际去练习一下，效果会更好，已经学会了，感谢博主。
数据同步工具DataX、Sqoop、Maxwell、Canal
代立冬: 欢迎博主也关注一下咱们新一代分布式超高性能云原生数据同步开源数据集成工具 - Apache SeaTunnel 已经在B站、腾讯云、字节等数百家公司使用。SeaTunnel 支持离线和实时同步，断点续传，CDC 等诸多特性，欢迎对比
Hadoop 优化
running_bug: 为什么这样优化啊？
zookeeper启动失败
幼儿园CEO: 果然是权限问题，但不是bin目录的。我索性就把整个ZK目录的权限都递归改掉，就全好了

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。