大数据技术之Hadoop阶段考试题及答案

最新推荐文章于 2024-01-07 14:27:22 发布

白白_bai白白

最新推荐文章于 2024-01-07 14:27:22 发布

阅读量7.7k

点赞数 5

文章标签： hadoop 大数据 linux

本文链接：https://blog.csdn.net/z782067/article/details/111571506

版权

大数据技术之Hadoop阶段考试题及答案

hadoop
- - 入门
  - HDFS
  - MapReduce
  - Yarn
  - 优化

hadoop

入门

1.简要描述如何安装配置apache加粗样式的一个开源Hadoop，只描述即可，无需列出具体步骤，列出具体步骤更好。

1)准备三台客户机（配置IP，配置主机名…）
2)安装jdk，安装hadoop
3)配置JAVA_HOME和HADOOP_HOME
4)使每个节点上的环境变量生效（source /etc/profile）
5)准备分发脚本 xsync
a)在/user/atguigu/bin下创建脚本：xsync
6)明确集群的配置
7)修改配置文件
a) core-site.xml
b) hadoop-env.sh
c) hdfs-site.xml
d) yarn-env.sh
e) yarn-site.xml
f) mapred-env.sh
g) mapred-site.xml
h) 配置slaves
8) 分发配置文件
a)xsync /etc/hadoop
9)删掉data和logs文件夹
10)配置ssh（hadoop102，hadoop103）
11)分发配置文件
12)格式化hdfs（hdfs namenode -format）
13)群启hdfs
14)群启yarn
2.Hadoop中需要哪些配置文件，其作用是什么？
1）core-site.xml：
(1)fs.defaultFS:hdfs://cluster1(域名)，这里的值指的是默认的HDFS路径。
(2)hadoop.tmp.dir:/export/data/hadoop_tmp,这里的路径默认是NameNode、DataNode、secondaryNamenode等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。
(3)ha.zookeeper.quorum:hadoop101:2181,hadoop102:2181,hadoop103:2181,这里是ZooKeeper集群的地址和端口。注意，数量一定是奇数，且不少于三个节点。
2）hadoop-env.sh: 只需设置jdk的安装路径，如：export JAVA_HOME=/usr/local/jdk。
3）hdfs-site.xml：
(1) dfs.replication:他决定着系统里面的文件块的数据备份个数，默认为3个。
(2) dfs.data.dir:datanode节点存储在文件系统的目录。
(3) dfs.name.dir:是namenode节点存储hadoop文件系统信息的本地系统路径。
4）mapred-site.xml：
mapreduce.framework.name: yarn指定mr运行在yarn上。
3.请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么?
1）NameNode它是hadoop中的主服务器，管理文件系统名称空间和对集群中存储的文件的访问，保存有metadate。
2）SecondaryNameNode它不是namenode的冗余守护进程，而是提供周期检查点和清理任务。帮助NN合并editslog，减少NN启动时间。
3）DataNode它负责管理连接到节点的存储（一个集群中可以有多个节点）。每个存储数据的节点运行一个datanode守护进程。
4）ResourceManager（JobTracker）JobTracker负责调度DataNode上的工作。每个DataNode有一个TaskTracker，它们执行实际工作。
5）NodeManager（TaskTracker）执行任务。
6）DFSZKFailoverController高可用时它负责监控NN的状态，并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利，因为最多只有两个节点，目前选择策略还比较简单（先到先得，轮换）。
7）JournalNode 高可用情况下存放namenode的editlog文件。
4.简述Hadoop的几个默认端口及其含义。
1)dfs.namenode.http-address:50070
2)SecondaryNameNode 辅助名称节点端口号:50090
3)dfs.datanode.address:50010
4)fs.dafaultFS:8020或者9000
5）yarn.resourcemanager.webapp.address:8088

HDFS

1.HDFS的存储机制（读写流程）
HDFS存储机制，包括HDFS的写入过程和读取过程两个部分
1）客户端向namenode请求上传文件，nodenode检查目标文件是否已经存在，父目录是否存在。
2）namenode返回是否可以上传。
3）客户端请求第一个block上传到哪几个datanode服务器上。
4）nodenode返回3个datanode节点，分别为dn1、dn2、dn3。
5）客户端请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端
7）客户端开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答
8）当一个block传输完成之后，客户端再次请求namenode上传第二个block的服务器。（重复执行3-7步）

1）客户端向namenode请求下载文件，namenode通过查询元数据，找到文件所在的datanode地址。
2）挑选一台datanode（就近原则，然后随机）服务器，请求读取数据。
3）datanode开始传输数据给客户端（从磁盘里面读取数据放入流，以packet为单位来做效验）。
4）客户端以packet为单位接收，先在本地缓存，然写入目标文件。
2.SecondaryNameNode 工作机制
1）第一阶段：namenode启动
（1）第一次启动namenode格式化后，创建fsimage和edits文件。
（2）客户端对元数据进行增删改请求
（3）namenode记录操作日志，更新滚动日志。
（4）namenode在内存中对数据进行增删改查
2）第二阶段：Secondary NameNode工作
（1）Secondary NameNode询问namenode是否需要checkpoint。直接带回namenode是否检查结果。
（2）Secondary NameNode请求执行checkpoint。
（3）namenode滚动正在写的edits日志
（4）将滚动前的编辑日志和镜像文件到内存，并且合并。
（6）生成新的镜像文件fsimage.chkpoint
（7）拷贝fsimage.chkpoint到namenode
（8）namenode将fsimage.chkpoint重新命名成fsimage
3.NameNode与SecondaryNameNode的区别与联系？
1）机制流程同上：
2）区别
（1）NameNode负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。
（2）SecondaryNameNode主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。
3）联系：
（1）SecondaryNameNode中保存了一份和namenode一致的镜像文件（fsimage）和编辑日志（edits）。
（2）在主namenode发生故障时，（假设没有及时备份数据），可以从SecondaryNameNode恢复数据。
4.服役新数据节点和退役旧节点步骤
1）接线上线操作：
当要新上线数据节点的时候，需要把数据节点的名字追加在 dfs.hosts 文件中
（1）关闭新增节点的防火墙
（2）在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname
（3）在每个新增数据节点的 hosts 文件中加入 NameNode 的 hostname
（4）在 NameNode 节点上增加新增节点的 SSH 免密码登录的操作
（5）在 NameNode 节点上的 dfs.hosts 中追加上新增节点的 hostname,
（6）在其他节点上执行刷新操作：hdfs dfsadmin -refreshNodes
（7）在 NameNode 节点上，更改 slaves 文件，将要上线的数据节点 hostname 追加到 slaves 文件中
（8）启动 DataNode 节点
（9）查看 NameNode 的监控页面看是否有新增加的节点
2）节点下线操作：
（1）修改/conf/hdfs-site.xml 文件
（2）确定需要下线的机器，dfs.osts.exclude 文件中配置好需要下架的机器，这个是阻止下架的机器去连接 NameNode。
（3）配置完成之后进行配置的刷新操作./bin/hadoop dfsadmin -refreshNodes,这个操作的作用是在后台进行 block 块的移动。
（4）当执行三的命令完成之后，需要下架的机器就可以关闭了，可以查看现在集群上连接的节点，正在执行 Decommission，会显示：Decommission Status : Decommission in progress 执行完毕后，会显示：Decommission Status : Decommissioned
（5）机器下线完毕，将他们从excludes 文件中移除。
5.NameNode挂了怎么办？
方法一：将SecondaryNameNode中数据拷贝到namenode存储数据的目录；
方法二：使用-importCheckpoint选项启动namenode守护进程，从而将SecondaryNameNode中数据拷贝到namenode目录中。

MapReduce

1.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化？

1）序列化和反序列化
序列化就是把内存中的对象，转换成字节序列（或娶她数据传输协议）以便于存储（持久化）和网络传输。
反序列化就是将收到的字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。
Java的序列化是一个重量级系列化的框架（Serializable），一个对象被序列化后，会附带很多额外的消息（各种效验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），精简、高效。
2）自定义bean对象要想序列化传输步骤及注意事项。
（1）必须实现Writable接口
（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造

最低0.47元/天解锁文章

白白_bai白白

关注

5
点赞
踩
47

收藏

觉得还不错? 一键收藏
0
评论
大数据技术之Hadoop阶段考试题及答案

大数据技术之Hadoop阶段考试题及答案hadoop入门HDFShadoop入门1.简要描述如何安装配置apache的一个开源Hadoop，只描述即可，无需列出具体步骤，列出具体步骤更好。1)准备三台客户机（配置IP，配置主机名…）2)安装jdk，安装hadoop3)配置JAVA_HOME和HADOOP_HOME4)使每个节点上的环境变量生效（source /etc/profile）5)准备分发脚本 xsynca)在/user/atguigu/bin下创建脚本：xsync6)明确集群的配
复制链接

扫一扫