12）Hadoop企业优化

最新推荐文章于 2020-09-02 23:28:22 发布

念达

最新推荐文章于 2020-09-02 23:28:22 发布

阅读量137

点赞数

分类专栏：大数据之Hadoop（MapReduce、YARN）

本文链接：https://blog.csdn.net/weixin_44757575/article/details/102255052

版权

大数据之Hadoop（MapReduce、YARN）专栏收录该内容

12 篇文章 0 订阅

订阅专栏

MapReduce 跑的慢的原因

MapReduce效率的瓶颈主要有两点：

计算机性能：
CPU、内存、磁盘健康、网络
I/O操作优化：
- 数据倾斜
- Map和Reduce个数设置不合理
- Map运行时间太长，导致Reduce等待时间过长
- 小文件过多
- 大量的不可分块的超大文件
- Spill溢写次数过多
- Merge次数过多

MapReduce优化方法

MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数:

数据输入：
- 合并小文件：在执行MR任务之前将小文件合并，因为过多的小文件会产生大量的Map任务，增大Map任务的装载次数，因为任务的装载耗时较长，所以会导致MR运行变慢。
- 采用CombineTextInputFormat作为输入，解决输入端大量小文件的场景。
Map阶段：
- 减少溢写次数（spill）：通过调整io.sort.mb参数及sort.spill.percent参数值，增大触发Spill的内存上限、减少spill次数，从而缩短MR运行时间。
- 减少Merge次数：
  通过调整io.sort.factor参数，增大Merge的文件数目，减少Merge的次数，从而缩短MR运行时间
- Map之后，在不影响业务逻辑的情况下，先进性Combine处理，减少I/O开销
Reduce阶段：
- 合理设置Map和Reduce个数：两个都不能设置的太少也不能太多，太少会导致Task等待，延长处理时间；太多，会导致Map、Reduce之间竞争资源，造成处理超时等错误。
- 设置Map、Reduce共存：调整slowstart.completedmaps参数，使Map运行一定时间后，Reduce也开始运行，减少Reduce等待时间。
- 合理设置Reduce端的Buffer：默认情况下，数据达到一个阈值时，Buffer中的数据会写入磁盘，而Reduce会从磁盘中获取所有数据，也就是说，Buffer和Reduce是没有直接关联的，之间有多次写磁盘 -> 读磁盘的过程，既然有整个弊端，那么就可以通过配置一些参数，使得Buffer中的一部分数据可以直接写入Reduce中，减少IO开销：mapreduce.reduce.input.buffer.percent,默认值为0.0。当值大于0时，会保留指定比例的内存读取Buffer中的数据直接拿给Reduce用，但是，这样一来，设置Buffer需要内存，读取数据需要内存，Reduce计算也需要内存，所以要根据作业的运行情况来调整
IO传输：
- 采用数据压缩的方式，减少网络IO的时间，安装Snappy和LZO压缩编码器。
- 使用SequenceFile二进制文件。
数据倾斜：
- 数据倾斜现象：
  - 数据频率倾斜：某一个区域的数据量要远远大于其他区域的数据量
  - 数据大小倾斜：部分记录的大小远远大于平均值
- 减少倾斜的方法：
  - 抽样和范围分区:
    可以通过对原数据进行抽样得到的结果集来预设分区边界值
  - 自定义分区
  - Combine：使用Combine可以大量的减少数据倾斜
  - 采用Map Join，尽量避免Reduce Join
常用调优参数：
- 资源相关参数：
  （1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）

配置参数	参数说明
mapreduce.map.memory.mb	一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。
mapreduce.reduce.memory.mb	一个ReduceTask可使用的资源上限（单位:MB），默认为1024。如果ReduceTask实际使用的资源量超过该值，则会被强制杀死。
mapreduce.map.cpu.vcores	每个MapTask可使用的最多cpu core数目，默认值: 1
mapreduce.reduce.cpu.vcores	每个ReduceTask可使用的最多cpu core数目，默认值: 1
mapreduce.reduce.shuffle.parallelcopies	每个Reduce去Map中取数据的并行数。默认值是5
mapreduce.reduce.shuffle.merge.percent	Buffer中的数据达到多少比例开始写入磁盘。默认值0.66
mapreduce.reduce.shuffle.input.buffer.percent	Buffer大小占Reduce可用内存的比例。默认值0.7
mapreduce.reduce.input.buffer.percent	指定多少比例的内存用来存放Buffer中的数据，默认值是0.0

（2）应该在YARN启动之前就配置在服务器的配置文件中才能生效（yarn-default.xml）

配置参数	参数说明
yarn.scheduler.minimum-allocation-mb	给应用程序Container分配的最小内存，默认值：1024
yarn.scheduler.maximum-allocation-mb	给应用程序Container分配的最大内存，默认值：8192
yarn.scheduler.minimum-allocation-vcores	每个Container申请的最小CPU核数，默认值：1
yarn.scheduler.maximum-allocation-vcores	每个Container申请的最大CPU核数，默认值：32
yarn.nodemanager.resource.memory-mb	给Containers分配的最大物理内存，默认值：8192

（3）Shuffle性能优化的关键参数，应在YARN启动之前就配置好（mapred-default.xml）

配置参数	参数说明
mapreduce.task.io.sort.mb	Shuffle的环形缓冲区大小，默认100m
mapreduce.map.sort.spill.percent	环形缓冲区溢出的阈值，默认80%

容错相关参数(MapReduce性能优化)：

配置参数	参数说明
mapreduce.map.maxattempts	每个Map Task最大重试次数，一旦重试参数超过该值，则认为Map Task运行失败，默认值：4
mapreduce.reduce.maxattempts	每个Reduce Task最大重试次数，一旦重试参数超过该值，则认为Map Task运行失败，默认值：4
mapreduce.task.timeout	Task超时时间，经常需要设置的一个参数，该参数表达的意思为：如果一个Task在一定时间内没有任何进入，即不会读取新的数据，也没有输出数据，则认为该Task处于Block状态，可能是卡住了，也许永远会卡住，为了防止因为用户程序永远Block住不退出，则强制设置了一个该超时时间（单位毫秒），默认是600000。如果你的程序对每条输入数据的处理时间过长（比如会访问数据库，通过网络拉取数据等），建议将该参数调大，该参数过小常出现的错误提示是“AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.”

HDFS小文件优化方法

HDFS小文件弊端：
HDFS上每个文件都要在NameNode上建立一个索引，这个索引的大小约为150byte，这样当小文件比较多的时候，就会产生很多的索引文件，一方面会大量占用NameNode的内存空间，另一方面就是索引文件过大使得索引速度变慢。
HDFS小文件解决方案
（1）在数据采集的时候，就将小文件或小批数据合成大文件再上传HDFS、
（2）在业务处理之前，在HDFS上使用MapReduce程序对小文件进行合并
（3）在MapReduce处理时，可采用CombineTextInputFormat提高效率

念达

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
12）Hadoop企业优化

MapReduce 跑的慢的原因MapReduce效率的瓶颈主要有两点：计算机性能：CPU、内存、磁盘健康、网络I/O操作优化：数据倾斜Map和Reduce个数设置不合理Map运行时间太长，导致Reduce等待时间过长小文件过多大量的不可分块的超大文件Spill溢写次数过多Merge次数过多MapReduce优化方法MapReduce优化方法主要从六个方面考虑：...
复制链接

扫一扫

专栏目录