Hadoop笔记(3)_HDFS
文章平均质量分 74
仅供参考
TryBest_
与bug奋战到底!又不懂的问题的可以私信我噢,有问必答!
展开
-
第1节、HDFS概述
一、补充(面试常问):1.常用端口号Hadoop3.x:HDFS NameNode 内部常用端口号(对内):8020/9000/9820HDFS NameNode 对用户的查询端口(对外):9870Yarn查看任务运行情况的端口:8088历史服务器端口:19888Hadoop2.xHDFS NameNode 内部常用端口号(对内):8020/9000HDFS NameNode 对用户的查询端口(对外):50070Yarn查看任务运行情况的端口:8088历史服务器端口:198882原创 2021-12-06 21:09:59 · 200 阅读 · 0 评论 -
第2节、HDFS的Shell相关操作(开发重点,集群上操作hdfs)
一、基本语法hadoop fs 具体命令 或者 hdfs dfs 具体命令二、命令大全2.1 查看命令2.1.1 列出文件系统目录下的目录和文件# -h 以更友好的方式列出,主要针对文件大小显示成相应单位K、M、G等# -r 递归列出,类似于linux中的tree命令hdfs dfs -ls [-h] [-r] <path>2.1.2 查看文件内容hdfs dfs -cat <hdfsfile>2.1.3 查看文件末尾的1KB数据hdfs dfs -tail原创 2021-12-06 21:10:58 · 254 阅读 · 0 评论 -
第3节、HDFS的客户端API(Windows上操作hdfs)
一、Eclipse进行hdfs的API操作1.准备工作1.需要软件eclipse。2. Hadoop3.1.4.tar.gz,放在全英文目录下,并解压。3. 配置windows下的Hadoop环境变量,复制以下路径:P:\Hadoop\hadoop-3.1.44. “我的电脑”右键->“属性”->“高级系统设置”->”高级”->“环境变量”->“系统变量”->“新建”->如下图所示:5.配置Path,如下图所示,然后重启电脑。2.Eclipse原创 2021-12-06 21:11:29 · 693 阅读 · 4 评论 -
第4节、HDFS的读写流程(面试重点)
一、HDFS写数据流程1.剖析文件写入(1)客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。(2)NameNode 返回是否可以上传。(3)客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。(4)NameNode 返回 3 个 DataNode 节点,分别为 dn1、dn2、dn3。(5)客户端通过 FSDataOutputStream 模块请求 dn1 上传数据原创 2021-12-06 21:12:13 · 90 阅读 · 0 评论 -
第5节、NN和2NN
一、思考:NameNode 中的元数据是存储在哪里的?首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。因此,引原创 2021-12-06 21:14:04 · 134 阅读 · 0 评论 -
第6节、DataNode工作机制
一、DataNode工作机制(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2) DataNode 启动后向 NameNode 注册,通过后,周期性(6 小时)的向 NameNode 上报所有的块信息。DN 向 NN 汇报当前解读信息的时间间隔,默认 6 小时;DN 扫描自己节点块信息列表的时间,默认 6 小时(3)心跳是每 3 秒一次,心跳返回结果带有 NameNode 给该 Dat原创 2021-12-06 21:15:53 · 181 阅读 · 0 评论