大数据面试题目第二部分

  1. 简要描述如何安装配置apache的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。
  1. 准备三台客户机(配置IP,配置主机名…)
  2. 安装jdk,安装hadoop
  3. 配置JAVA_HOME和HADOOP_HOME
  4. 使每个节点上的环境变量生效(source /etc/profile)
  5. 准备分发脚本 xsync
    a) **在/user/atguigu/bin下创建脚本:xsync
  6. 明确集群的配置
  7. 修改配置文件
    a) **core-site.xml
    b) **hadoop-env.sh
    c) **hdfs-site.xml
    d) **yarn-env.sh
    e) **yarn-site.xml
    f) **mapred-env.sh
    g) **mapred-site.xml
    h) **配置slaves
  8. 分发配置文件
    a) **xsync /etc/hadoop
  9. 删掉data和logs文件夹
  10. 配置ssh(hadoop102,hadoop103)
  11. 分发配置文件
  12. 格式化hdfs(hdfs namenode -format)
  13. 群启hdfs
  14. 群启yarn
  1. Hadoop中需要哪些配置文件,其作用是什么?
    1)core-site.xml:
    (1)fs.defaultFS:hdfs://cluster1(域名),这里的值指的是默认的HDFS路径 。
    (2)hadoop.tmp.dir:/export/data/hadoop_tmp,这里的路径默认是NameNode、DataNode、secondaryNamenode等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。
    (3)ha.zookeeper.quorum:hadoop101:2181,hadoop102:2181,hadoop103:2181,这里是ZooKeeper集群的地址和端口。注意,数量一定是奇数,且不少于三个节点 。
    2)hadoop-env.sh: 只需设置jdk的安装路径,如:export JAVA_HOME=/usr/local/jdk。
    3)hdfs-site.xml:
    (1) dfs.replication:他决定着系统里面的文件块的数据备份个数,默认为3个。
    (2) dfs.data.dir:datanode节点存储在文件系统的目录 。
    (3) dfs.name.dir:是namenode节点存储hadoop文件系统信息的本地系统路径 。
    4)mapred-site.xml:
    mapreduce.framework.name: yarn指定mr运行在yarn上。
  2. 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?
    1)NameNode它是hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问,保存有metadate。
    2)SecondaryNameNode它不是namenode的冗余守护进程,而是提供周期检查点和清理任务。帮助NN合并editslog,减少NN启动时间。
    3)DataNode它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个datanode守护进程。
    4)ResourceManager(JobTracker)JobTracker负责调度DataNode上的工作。每个DataNode有一个TaskTracker,它们执行实际工作。
    5)NodeManager(TaskTracker)执行任务。
    6)DFSZKFailoverController高可用时它负责监控NN的状态,并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利,因为最多只有两个节点,目前选择策略还比较简单(先到先得,轮换)。
    7)JournalNode 高可用情况下存放namenode的editlog文件。
  3. 简述Hadoop的几个默认端口及其含义。
    1)dfs.namenode.http-address:50070
    2)SecondaryNameNode辅助名称节点端口号:50090
    3)dfs.datanode.address:50010
    4)fs.defaultFS:8020 或者9000
    5)yarn.resourcemanager.webapp.address:8088
    HDFS
  4. HDFS的存储机制(读写流程)。
    HDFS存储机制,包括HDFS的写入过程和读取过程两个部分

1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。
2)namenode返回是否可以上传。
3)客户端请求第一个 block上传到哪几个datanode服务器上。
4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。
5)客户端请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。
6)dn1、dn2、dn3逐级应答客户端
7)客户端开始往dn1上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,dn1收到一个packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答
8)当一个block传输完成之后,客户端再次请求namenode上传第二个block的服务器。(重复执行3-7步)

1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件块所在的datanode地址。
2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。
3)datanode开始传输数据给客户端(从磁盘里面读取数据放入流,以packet为单位来做校验)。
4)客户端以packet为单位接收,先在本地缓存,然后写入目标文件。
2. SecondaryNameNode 工作机制。
1)第一阶段:namenode启动
(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。
(2)客户端对元数据进行增删改的请求
(3)namenode记录操作日志,更新滚动日志。
(4)namenode在内存中对数据进行增删改查
2)第二阶段:Secondary NameNode工作
(1)Secondary NameNode询问namenode是否需要checkpoint。直接带回namenode是否检查结果。
(2)Secondary NameNode请求执行checkpoint。
(3)namenode滚动正在写的edits日志
(4)将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode
(5)Secondary NameNode加载编辑日志和镜像文件到内存,并合并。
(6)生成新的镜像文件fsimage.chkpoint
(7)拷贝fsimage.chkpoint到namenode
(8)namenode将fsimage.chkpoint重新命名成fsimage
3. NameNode与SecondaryNameNode 的区别与联系?
1)机制流程同上;
2)区别
(1)NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。
(2)SecondaryNameNode主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。
3)联系:
(1)SecondaryNameNode中保存了一份和namenode一致的镜像文件(fsimage)和编辑日志(edits)。
(2)在主namenode发生故障时(假设没有及时备份数据),可以从SecondaryNameNode恢复数据。
4. 服役新数据节点和退役旧节点步骤
1)节点上线操作:
当要新上线数据节点的时候,需要把数据节点的名字追加在 dfs.hosts 文件中
(1)关闭新增节点的防火墙
(2)在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname
(3)在每个新增数据节点的 hosts 文件中加入 NameNode 的 hostname
(4)在 NameNode 节点上增加新增节点的 SSH 免密码登录的操作
(5)在 NameNode 节点上的 dfs.hosts 中追加上新增节点的 hostname,
(6)在其他节点上执行刷新操作:hdfs dfsadmin -refreshNodes
(7)在 NameNode 节点上,更改 slaves 文件,将要上线的数据节点 hostname 追加到 slaves 文件中
(8)启动 DataNode 节点
(9)查看 NameNode 的监控页面看是否有新增加的节点
2)节点下线操作:
(1)修改/conf/hdfs-site.xml 文件
(2)确定需要下线的机器,dfs.osts.exclude 文件中配置好需要下架的机器,这个是阻止下架的机器去连接 NameNode。
(3)配置完成之后进行配置的刷新操作./bin/hadoop dfsadmin -refreshNodes,这个操作的作用是在后台进行 block 块的移动。
(4)当执行三的命令完成之后,需要下架的机器就可以关闭了,可以查看现在集群上连接的节点,正在执行 Decommission,会显示:Decommission Status : Decommission in progress 执行完毕后,会显示:Decommission Status : Decommissioned
(5)机器下线完毕,将他们从excludes 文件中移除。
5. Namenode挂了怎么办?
方法一:将SecondaryNameNode中数据拷贝到namenode存储数据的目录;
方法二:使用-importCheckpoint选项启动namenode守护进程,从而将SecondaryNameNode中数据拷贝到namenode目录中。
MapReduce

  1. 谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?
    1)序列化和反序列化
    序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。
    反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。
    Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop自己开发了一套序列化机制(Writable),精简、高效。
    2)自定义bean对象要想序列化传输步骤及注意事项:。
    (1)必须实现Writable接口
    (2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造
    (3)重写序列化方法
    (4)重写反序列化方法
    (5)注意反序列化的顺序和序列化的顺序完全一致
    (6)要想把结果显示在文件中,需要重写toString(),且用”\t”分开,方便后续用
    (7)如果需要将自定义的bean放在key中传输,则还需要实现comparable接口,因为mapreduce框中的shuffle过程一定会对key进行排序

  2. FileInputFormat切片机制
    (1)简单地按照文件的内容长度进行切片
    (2)切片大小,默认等于block大小
    (3)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

  3. 自定义InputFormat流程
    (1)自定义一个类继承FileInputFormat
    (2)改写RecordReader,实现一次读取一个完整文件封装为KV

  4. 如何决定一个job的map和reduce的数量?
    1)map数量
    splitSize=max{minSize,min{maxSize,blockSize}}
    map数量由处理的数据分成的block数量决定default_num = total_size / split_size;
    2)reduce数量
    reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1。

  5. Maptask的个数由什么决定?
    一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定。

  6. MapTask工作机制

    (1)Read阶段:Map Task通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。
    (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。
    (3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中。
    (4)Spill阶段:即“溢写”,当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。
    溢写阶段详情:
    步骤1:利用快速排序算法对缓存区内的数据进行排序,排序方式是,先按照分区编号partition进行排序,然后按照key进行排序。这样,经过排序后,数据以分区为单位聚集在一起,且同一分区内所有数据按照key有序。
    步骤2:按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out(N表示当前溢写次数)中。如果用户设置了Combiner,则写入文件之前,对每个分区中的数据进行一次聚集操作。
    步骤3:将分区数据的元信息写到内存索引数据结构SpillRecord中,其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB,则将内存索引写到文件output/spillN.out.index中。
    (5)Combine阶段:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。
    当所有数据处理完后,MapTask会将所有临时文件合并成一个大文件,并保存到文件output/file.out中,同时生成相应的索引文件output/file.out.index。
    在进行文件合并过程中,MapTask以分区为单位进行合并。对于某个分区,它将采用多轮递归合并的方式。每轮合并io.sort.factor(默认100)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。
    让每个MapTask最终只生成一个数据文件,可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

  7. ReduceTask工作机制。

    (1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。
    (2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。
    (3)Sort阶段:按照MapReduce语义,用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起,Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序,因此,ReduceTask只需对所有数据进行一次归并排序即可。
    (4)Reduce阶段:reduce()函数将计算结果写到HDFS上。

  8. 请描述mapReduce有几种排序及排序发生的阶段。
    1)排序的分类:
    (1)部分排序:
    MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部排序。
    (2)全排序:
    如何用Hadoop产生一个全局排序的文件?最简单的方法是使用一个分区。但该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了MapReduce所提供的并行架构。
    替代方案:首先创建一系列排好序的文件;其次,串联这些文件;最后,生成一个全局排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如:可以为待分析文件创建3个分区,在第一分区中,记录的单词首字母a-g,第二分区记录单词首字母h-n, 第三分区记录单词首字母o-z。
    (3)辅助排序:(GroupingComparator分组)
    Mapreduce框架在记录到达reducer之前按键对记录排序,但键所对应的值并没有被排序。甚至在不同的执行轮次中,这些值的排序也不固定,因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说,大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是,有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。
    (4)二次排序:
    在自定义排序过程中,如果compareTo中的判断条件为两个即为二次排序。
    2)自定义排序WritableComparable
    bean对象实现WritableComparable接口重写compareTo方法,就可以实现排序
    @Override
    public int compareTo(FlowBean o) {
    // 倒序排列,从大到小
    return this.sumFlow > o.getSumFlow() ? -1 : 1;
    }
    3)排序发生的阶段:
    (1)一个是在map side发生在spill后partition前。
    (2)一个是在reduce side发生在copy后 reduce前。

  9. 请描述mapReduce中shuffle阶段的工作流程,如何优化shuffle阶段?
    分区,排序,溢写,拷贝到对应reduce机器上,增加combiner,压缩溢写的文件。

  10. 请描述mapReduce中combiner的作用是什么,一般使用情景,哪些情况不需要,及和reduce的区别?
    1)Combiner的意义就是对每一个maptask的输出进行局部汇总,以减小网络传输量。
    2)Combiner能够应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出kv应该跟reducer的输入kv类型要对应起来。
    3)Combiner和reducer的区别在于运行的位置。
    Combiner是在每一个maptask所在的节点运行;
    Reducer是接收全局所有Mapper的输出结果。

  11. Mapreduce的工作原理,请举例子说明mapreduce是怎么运行的?

  12. 如果没有定义partitioner,那数据在被送达reducer前是如何被分区的?
    如果没有自定义的 partitioning,则默认的 partition 算法,即根据每一条数据的 key
    的 hashcode 值摸运算(%)reduce 的数量,得到的数字就是“分区号”。

  13. MapReduce 怎么实现 TopN?
    可以自定义groupingcomparator,或者在map端对数据进行排序,然后再reduce输出时,控制只输出前n个数。就达到了topn输出的目的。

  14. 有可能使 Hadoop 任务输出到多个目录中么?如果可以,怎么做?
    1)可以输出到多个目录中,采用自定义OutputFormat。
    2)实现步骤:
    (1)自定义outputformat,
    (2)改写recordwriter,具体改写输出数据的方法write()

  15. 简述hadoop实现join的几种方法及每种方法的实现。
    1)reduce side join
    Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。
    Reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开,最后进行合并就ok了。
    2)map join
    在map端缓存多张表,提前处理业务逻辑,这样增加map端业务,减少reduce端数据的压力,尽可能的减少数据倾斜。
    具体办法:采用distributedcache
    (1)在mapper的setup阶段,将文件读取到缓存集合中。
    (2)在驱动函数中加载缓存。
    job.addCacheFile(new URI(“file:/e:/mapjoincache/pd.txt”));// 缓存普通文件到task运行节点

  16. 请简述hadoop怎样实现二级排序。
    对map端输出的key进行排序,实现的compareTo方法。 在compareTo方法中排序的条件有二个。

  17. 参考下面的MR系统的场景:
    –hdfs块的大小为128MB
    –输入类型为FileInputFormat
    –有三个文件的大小分别是:64KB 130MB 260MB
    Hadoop框架会把这些文件拆分为多少块?
    4块:64K,130M,128M,132M

  18. Hadoop中RecordReader的作用是什么?
    (1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类;
    (2)系统默认的RecordReader是LineRecordReader
    (3)LineRecordReader是用每行的偏移量作为map的key,每行的内容作为map的value;
    (4)应用场景:自定义读取每一条记录的方式;自定义读入key的类型,如希望读取的key是文件的路径或名字而不是该行在文件中的偏移量。

  19. 给你一个1G的数据文件。分别有id,name,mark,source四个字段,按照mark分组,id排序,手写一个MapReduce?其中有几个Mapper?
    在map端对mark排序,在reduce端对id分组。
    @Override
    public int compareTo(GroupBean o) {
    int result;

    result = this.id > o.id ? -1 : 1;
    
    return result;
    

    }

@Override
public int compare(WritableComparable a, WritableComparable b) {

	GroupBean aBean = (GroupBean) a;
	GroupBean bBean = (GroupBean) b;

	int result;
	if (aBean.getMark() > bBean. getMark()) {
		result = 1;
	} else if (aBean. getMark() < bBean. getMark()) {
		result = -1;
	} else {
		result = 0;
	}
	return result;
}

2)几个mapper
(1)1024m/128m=8块
Yarn

  1. 简述Hadoop1与Hadoop2 的架构异同。
    加入了yarn解决了资源调度的问题。
    加入了对zookeeper的支持实现比较可靠的高可用。
  2. 为什么会产生yarn,它解决了什么问题,有什么优势?
    Yarn最主要的功能就是解决运行的用户程序与yarn框架完全解耦。
    Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreduce、storm程序,spark程序……
  3. MR作业提交全过程。
    1)作业提交过程之YARN

2)作业提交过程之MapReduce

3)作业提交过程之读数据

4)作业提交过程之写数据

  1. HDFS的数据压缩算法?及每种算法的应用场景?
    1)gzip压缩
    优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;大部分linux系统都自带gzip命令,使用方便。
    缺点:不支持split。
    应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。例如说一天或者一个小时的日志压缩成一个gzip文件,运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和java写的mapreduce程序完全和文本处理一样,压缩之后原来的程序不需要做任何修改。
    2)Bzip2压缩
    优点:支持split;具有很高的压缩率,比gzip压缩率都高;hadoop本身支持,但不支持native;在linux系统下自带bzip2命令,使用方便。
    缺点:压缩/解压速度慢;不支持native。
    应用场景:适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式;或者输出之后的数据比较大,处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况;或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程序(即应用程序不需要修改)的情况。
    3)Lzo压缩
    优点:压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;可以在linux系统下安装lzop命令,使用方便。
    缺点:压缩率比gzip要低一些;hadoop本身不支持,需要安装;在应用中对lzo格式的文件需要做一些特殊处理(为了支持split需要建索引,还需要指定inputformat为lzo格式)。
    应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。
    4)Snappy压缩
    优点:高速压缩速度和合理的压缩率。
    缺点:不支持split;压缩率比gzip要低;hadoop本身不支持,需要安装;
    应用场景:当Mapreduce作业的Map输出的数据比较大的时候,作为Map到Reduce的中间数据的压缩格式;或者作为一个Mapreduce作业的输出和另外一个Mapreduce作业的输入。

  2. Hadoop的调度器总结。
    目前,Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Scheduler。
    具体设置详见:yarn-default.xml文件

    The class to use as the resource scheduler.
    yarn.resourcemanager.scheduler.class
    org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler

      1)先进先出调度器(FIFO)
    2)容量调度器(Capacity Scheduler)
    3)公平调度器(Fair Scheduler)

  3. mapreduce推测执行算法及原理。
    1)作业完成时间取决于最慢的任务完成时间
    一个作业由若干个Map任务和Reduce任务构成。因硬件老化、软件Bug等,某些任务可能运行非常慢。
    典型案例:系统中有99%的Map任务都完成了,只有少数几个Map老是进度很慢,完不成,怎么办?
    2)推测执行机制:
    发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务,同时运行。谁先运行完,则采用谁的结果。
    3)执行推测任务的前提条件
    (1)每个task只能有一个备份任务;
    (2)当前job已完成的task必须不小于0.05(5%)
    (3)开启推测执行参数设置。Hadoop2.7.2 mapred-site.xml文件中默认是打开的。

    mapreduce.map.speculative
    true
    If true, then multiple instances of some map tasks
    may be executed in parallel.

mapreduce.reduce.speculative true If true, then multiple instances of some reduce tasks may be executed in parallel. 4)不能启用推测执行机制情况 (1)任务间存在严重的负载倾斜; (2)特殊任务,比如任务向数据库中写数据。 5)算法原理:

优化

  1. mapreduce 跑的慢的原因?
    Mapreduce 程序效率的瓶颈在于两点:
    1)计算机性能
    CPU、内存、磁盘健康、网络
    2)I/O 操作优化
    (1)数据倾斜
    (2)map和reduce数设置不合理
    (3)reduce等待过久
    (4)小文件过多
    (5)大量的不可分块的超大文件
    (6)spill次数过多
    (7)merge次数过多等。
  2. mapreduce 优化方法。
    1)数据输入:
    (1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map任务,增大map任务装载次数,而任务的装载比较耗时,从而导致 mr 运行较慢。
    (2)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景。
    2)map阶段
    (1)减少spill次数:通过调整io.sort.mb及sort.spill.percent参数值,增大触发spill的内存上限,减少spill次数,从而减少磁盘 IO。
    (2)减少merge次数:通过调整io.sort.factor参数,增大merge的文件数目,减少merge的次数,从而缩短mr处理时间。
    (3)在 map 之后先进行combine处理,减少 I/O。
    3)reduce阶段
    (1)合理设置map和reduce数:两个都不能设置太少,也不能设置太多。太少,会导致task等待,延长处理时间;太多,会导致 map、reduce任务间竞争资源,造成处理超时等错误。
    (2)设置map、reduce共存:调整slowstart.completedmaps参数,使map运行到一定程度后,reduce也开始运行,减少reduce的等待时间。
    (3)规避使用reduce,因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。
    (4)合理设置reduc端的buffer,默认情况下,数据达到一个阈值的时候,buffer中的数据就会写入磁盘,然后reduce会从磁盘中获得所有的数据。也就是说,buffer和reduce是没有直接关联的,中间多个一个写磁盘->读磁盘的过程,既然有这个弊端,那么就可以通过参数来配置,使得buffer中的一部分数据可以直接输送到reduce,从而减少IO开销:mapred.job.reduce.input.buffer.percent,默认为0.0。当值大于0的时候,会保留指定比例的内存读buffer中的数据直接拿给reduce使用。这样一来,设置buffer需要内存,读取数据需要内存,reduce计算也要内存,所以要根据作业的运行情况进行调整。
    4)IO传输
    (1)采用数据压缩的方式,减少网络IO的的时间。安装Snappy和LZOP压缩编码器。
    (2)使用SequenceFile二进制文件
    5)数据倾斜问题
    (1)数据倾斜现象
    数据频率倾斜——某一个区域的数据量要远远大于其他区域。
    数据大小倾斜——部分记录的大小远远大于平均值。
    (2)如何收集倾斜数据
    在reduce方法中加入记录map输出键的详细情况的功能。
    public static final String MAX_VALUES = “skew.maxvalues”;
    private int maxValueThreshold;

@Override
public void configure(JobConf job) {
maxValueThreshold = job.getInt(MAX_VALUES, 100);
}
@Override
public void reduce(Text key, Iterator values,
OutputCollector<Text, Text> output,
Reporter reporter) throws IOException {
int i = 0;
while (values.hasNext()) {
values.next();
i++;
}

 if (++i > maxValueThreshold) {
     log.info("Received " + i + " values for key " + key);
 }

}
(3)减少数据倾斜的方法
方法1:抽样和范围分区
可以通过对原始数据进行抽样得到的结果集来预设分区边界值。
方法2:自定义分区
另一个抽样和范围分区的替代方案是基于输出键的背景知识进行自定义分区。例如,如果map输出键的单词来源于一本书。其中大部分必然是省略词(stopword)。那么就可以将自定义分区将这部分省略词发送给固定的一部分reduce实例。而将其他的都发送给剩余的reduce实例。
方法3:Combine
使用Combine可以大量地减小数据频率倾斜和数据大小倾斜。在可能的情况下,combine的目的就是聚合并精简数据。
6)常用的调优参数
(1)资源相关参数
(a)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml)
配置参数 参数说明
mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。
mapreduce.reduce.memory.mb 一个Reduce Task可使用的资源上限(单位:MB),默认为1024。如果Reduce Task实际使用的资源量超过该值,则会被强制杀死。
mapreduce.map.cpu.vcores 每个Map task可使用的最多cpu core数目,默认值: 1
mapreduce.reduce.cpu.vcores 每个Reduce task可使用的最多cpu core数目,默认值: 1
mapreduce.reduce.shuffle.parallelcopies 每个reduce去map中拿数据的并行数。默认值是5
mapreduce.reduce.shuffle.merge.percent buffer中的数据达到多少比例开始写入磁盘。默认值0.66
mapreduce.reduce.shuffle.input.buffer.percent buffer大小占reduce可用内存的比例。默认值0.7
mapreduce.reduce.input.buffer.percent 指定多少比例的内存用来存放buffer中的数据,默认值是0.0
(b)应该在yarn启动之前就配置在服务器的配置文件中才能生效(yarn-default.xml)
配置参数 参数说明
yarn.scheduler.minimum-allocation-mb 1024 给应用程序container分配的最小内存
yarn.scheduler.maximum-allocation-mb 8192 给应用程序container分配的最大内存
yarn.scheduler.minimum-allocation-vcores 1 每个container申请的最小CPU核数
yarn.scheduler.maximum-allocation-vcores 32 每个container申请的最大CPU核数
yarn.nodemanager.resource.memory-mb 8192 给containers分配的最大物理内存
(c)shuffle性能优化的关键参数,应在yarn启动之前就配置好(mapred-default.xml)
配置参数 参数说明
mapreduce.task.io.sort.mb 100 shuffle的环形缓冲区大小,默认100m
mapreduce.map.sort.spill.percent 0.8 环形缓冲区溢出的阈值,默认80%
(2)容错相关参数(mapreduce性能优化)
配置参数 参数说明
mapreduce.map.maxattempts 每个Map Task最大重试次数,一旦重试参数超过该值,则认为Map Task运行失败,默认值:4。
mapreduce.reduce.maxattempts 每个Reduce Task最大重试次数,一旦重试参数超过该值,则认为Map Task运行失败,默认值:4。
mapreduce.task.timeout Task超时时间,经常需要设置的一个参数,该参数表达的意思为:如果一个task在一定时间内没有任何进入,即不会读取新的数据,也没有输出数据,则认为该task处于block状态,可能是卡住了,也许永远会卡主,为了防止因为用户程序永远block住不退出,则强制设置了一个该超时时间(单位毫秒),默认是600000。如果你的程序对每条输入数据的处理时间过长(比如会访问数据库,通过网络拉取数据等),建议将该参数调大,该参数过小常出现的错误提示是“AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.”。

  1. HDFS小文件优化方法。
    1)HDFS小文件弊端
    HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode的内存空间,另一方面就是索引文件过大是的索引速度变慢。
    2)解决方案
    1)Hadoop Archive:
    是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件,这样在减少namenode内存使用的同时。
    2)Sequence file:
    sequence file由一系列的二进制key/value组成,如果key为文件名,value为文件内容,则可以将大批小文件合并成一个大文件。
    3)CombineFileInputFormat:
    CombineFileInputFormat是一种新的inputformat,用于将多个文件合并成一个单独的split,另外,它会考虑数据的存储位置。
    4)开启JVM重用
    对于大量小文件Job,可以开启JVM重用会减少45%运行时间。
    JVM重用理解:一个map运行一个jvm,重用的话,在一个map在jvm上运行完毕后,jvm继续运行其他jvm
    具体设置:mapreduce.job.jvm.numtasks值在10-20之间。
  2. MapReduce怎么解决数据均衡问题,如何确定分区号?
    数据均衡问题指的就是某个节点或者某几个节点的任务运行的比较慢,拖慢了整个Job的进度。实际上数据均衡问题就是数据倾斜问题,解决方案同解决数据倾斜的方案。
    MapReduce中分区默认是按hashcode来分的,用户可以自定义分区类,需要继承系统的Partitioner类,重写getPartition()方法即可。
  3. Hadoop中job和Tasks之间的区别是什么?
    编写好的一个程序,我们称为Mapreduce程序,一个Mapreduce程序就是一个Job,而一个Job里面可以有一个或多个Task,Task又可以区分为Map Task和Reduce Task.
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值