大数据技术之Hadoop阶段考试题及答案

最新推荐文章于 2024-05-05 12:22:37 发布

眼神深处

最新推荐文章于 2024-05-05 12:22:37 发布

阅读量2.9k

点赞数 2

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_45739322/article/details/111468519

版权

文章目录

入门
HDFS
Writable hadoop中的序列化
Yarn
Mapreduce

入门

1.简要描述如何安装配置apache的一个开源Hadoop，只描述即可，无需列出具体步骤，列出具体步骤更好。

1)准备三台客户机（配置IP，配置主机名…）
2)安装jdk，安装hadoop
3)配置JAVA_HOME和HADOOP_HOME
4)使每个节点上的环境变量生效（source /etc/profile）
5)准备分发脚本 xsync
a)**在/user/atguigu/bin下创建脚本：xsync
6)明确集群的配置
7)修改配置文件
a)**core-site.xml
b)**hadoop-env.sh
c)**hdfs-site.xml
d)**yarn-env.sh
e)**yarn-site.xml
f)**mapred-env.sh
g)**mapred-site.xml
h)**配置slaves
8)分发配置文件
a)**xsync /etc/hadoop
9)删掉data和logs文件夹
10)配置ssh（hadoop102，hadoop103）
11)分发配置文件
12)格式化hdfs（hdfs namenode -format）
13)群启hdfs
14)群启yarn

2.Hadoop中需要哪些配置文件，其作用是什么？

1）core-site.xml：
(1)fs.defaultFS:hdfs://cluster1(域名)，这里的值指的是默认的HDFS路径。
(2)hadoop.tmp.dir:/export/data/hadoop_tmp,这里的路径默认是NameNode、DataNode、secondaryNamenode等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。
(3)ha.zookeeper.quorum:hadoop101:2181,hadoop102:2181,hadoop103:2181,这里是ZooKeeper集群的地址和端口。注意，数量一定是奇数，且不少于三个节点。
2）hadoop-env.sh: 只需设置jdk的安装路径，如：export JAVA_HOME=/usr/local/jdk。
3）hdfs-site.xml：
(1) dfs.replication:他决定着系统里面的文件块的数据备份个数，默认为3个。
(2) dfs.data.dir:datanode节点存储在文件系统的目录。
(3) dfs.name.dir:是namenode节点存储hadoop文件系统信息的本地系统路径。
4）mapred-site.xml：
mapreduce.framework.name: yarn指定mr运行在yarn上。

3.请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么?

1）NameNode它是hadoop中的主服务器，管理文件系统名称空间和对集群中存储的文件的访问，保存有metadate。（元数据）（FSImage（文件系统镜像快照）: editslog日志信息）
2）SecondaryNameNode它不是namenode的冗余守护进程，而是提供周期检查点和清理任务。帮助NN合并editslog，减少NN启动时间。
3）DataNode它负责管理连接到节点的存储（一个集群中可以有多个节点）。每个存储数据的节点运行一个datanode守护进程。
4）ResourceManager（JobTracker）JobTracker负责调度DataNode上的工作。每个DataNode有一个TaskTracker，它们执行实际工作。
5）NodeManager（TaskTracker）执行任务。
6）DFSZKFailoverController高可用时它负责监控NN的状态，并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利，因为最多只有两个节点，目前选择策略还比较简单（先到先得，轮换）。
7）JournalNode 高可用情况下存放namenode的editlog文件。
4.简述Hadoop的几个默认端口及其含义。
1）dfs.namenode.http-address:50070
2）SecondaryNameNode辅助名称节点端口号：50090
3）dfs.datanode.address:50010
4）fs.defaultFS:8020 或者9000
5）yarn.resourcemanager.webapp.address:8088

HDFS

1.HDFS的存储机制（读写流程）。

HDFS存储机制，包括HDFS的写入过程和读取过程两个部分

1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。
2）namenode返回是否可以上传。
3）客户端请求第一个 block上传到哪几个datanode服务器上。NN
4）namenode返回3个datanode节点，分别为dn1、dn2、dn3。
5）客户端请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端
7）客户端开始往dn1上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，dn1收到一个packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答
8）当一个block传输完成之后，客户端再次请求namenode上传第二个block的服务器。（重复执行3-7步）
写入时：客户端开启输出流 OutputStream
datanate 开启：InputStream .

1）客户端向namenode请求下载文件，namenode通过查询元数据，找到文件块所在的datanode地址。
2）挑选一台datanode（就近原则，然后随机）服务器，请求读取数据。
dataNode: OutputStream : 客户端： inputStream
3）datanode开始传输数据给客户端（从磁盘里面读取数据放入流，以packet为单位来做校验）。
4）客户端以packet为单位接收，先在本地缓存，然后写入目标文件。

2.SecondaryNameNode 工作机制。

1）第一阶段：namenode启动
（1）第一次启动namenode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
（2）客户端对元数据进行增删改的请求
（3）namenode记录操作日志，更新滚动日志。
（4）namenode在内存中对数据进行增删改查
2）第二阶段：Secondary NameNode工作
（1）Secondary NameNode询问namenode是否需要checkpoint。直接带回namenode是否检查结果。
（2）Secondary NameNode请求执行checkpoint。
（3）namenode滚动正在写的edits日志
（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode
（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。
（6）生成新的镜像文件fsimage.chkpoint
（7）拷贝fsimage.chkpoint到namenode
（8）namenode将fsimage.chkpoint重新命名成fsimage

3.NameNode与SecondaryNameNode 的区别与联系？

1）机制流程同上；
2）区别
（1）NameNode负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。
（2）SecondaryNameNode主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。
3）联系：
（1）SecondaryNameNode中保存了一份和namenode一致的镜像文件（fsimage）和编辑日志（edits）。
（2）在主namenode发生故障时（假设没有及时备份数据），可以从SecondaryNameNode恢复数据。

4.服役新数据节点和退役旧节点步骤（大数据开发，大数据运维）

1）节点上线操作：新增节点。
当要新上线数据节点的时候，需要把数据节点的名字追加在 dfs.hosts 文件中
（1）关闭新增节点的防火墙
（2）在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname
（3）在每个新增数据节点的 hosts 文件中加入 NameNode 的 hostname
（4）在 NameNode 节点上增加新增节点的 SSH 免密码登录的操作
（5）在 NameNode 节点上的 dfs.hosts 中追加上新增节点的 hostname,
（6）在其他节点上执行刷新操作：hdfs dfsadmin -refreshNodes
（7）在 NameNode 节点上，更改 slaves 文件，将要上线的数据节点 hostname 追加到 slaves 文件中
（8）启动 DataNode 节点
（9）查看 NameNode 的监控页面看是否有新增加的节点
2）节点下线操作：
（1）修改/conf/hdfs-site.xml 文件
（2）确定需要下线的机器，dfs.osts.exclude 文件中配置好需要下架的机器，这个是阻止下架的机器去连接 NameNode。
（3）配置完成之后进行配置的刷新操作./bin/hadoop dfsadmin -refreshNodes,这个操作的作用是在后台进行 block 块的移动。
（4）当执行三的命令完成之后，需要下架的机器就可以关闭了，可以查看现在集群上连接的节点，正在执行 Decommission，会显示：Decommission Status : Decommission in progr

最低0.47元/天解锁文章

眼神深处

关注

2
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
大数据技术之Hadoop阶段考试题及答案

文章目录入门1.简要描述如何安装配置apache的一个开源Hadoop，只描述即可，无需列出具体步骤，列出具体步骤更好。2.Hadoop中需要哪些配置文件，其作用是什么？3.请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么?HDFS1.HDFS的存储机制（读写流程）。2.SecondaryNameNode 工作机制。3.NameNode与SecondaryNameNode 的区别与联系？4.服役新数据节点和退役旧节点步骤（大数据开发，大数据运维）5.Namenode
复制链接

扫一扫