Hadoop中的HDFS学习总结

博主自己学习hdfs的一些笔记,整理了一下(有什么不懂的可以问我。尽量解答,希望对大家有帮助)

Hadoop组成

Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,对海量数据的存储。
Hadoop MapReduce:一个分布式的资源调度和离线并行计算框架。
Hadoop Yarn:基于HDFS,用于作业调度和集群资源管理的框架。
Hadoop Common:Hadoop工具包,支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)

hadoop 的组成部分

  1. List item

HDFS 分布式文件存储系统
管理者:NameNode
工作者:DataNode
辅助者:SecondayNameNode
MapReduce 分布式离线计算框架
Yarn Hadoop资源调度器
管理者:ResourceManager
工作者:NodeManager

HDFS数据副本机制

1、第一份数据来源于用户的客户端
2、第二份数据存放在与第一份副本在同一个机架,不同的节点,按照一定的机制(cpu 内存 io 使用率和节点磁盘剩
余容量)选取一个节点进行存放
3、第三份副本存放在,与第一第二副本不在同一机架,且逻辑距离最近的机架上,按照一定的机制(cpu 内存 io 使
用率和节点磁盘剩余容量),选择一个节点进行存放
在这里插入图片描述
hadoop 视硬件设备经常损坏为常态,为了防止硬件损坏导致系统不可用,所
以构建多副本机制。

Namenode作用

对存放的元数据,名字空间,目录树进行管理维护
监控datanode的心跳信息
确定指定文件到datanode的映射关系
 响应客户端的所有请求  
客户端和dataname交流之间的桥梁

DataNode作用

响应客户端的读写操作
周期性的向namenode发送自己的心跳信息,namenode 如果10分钟没有接受到该节点的心跳报告,认为该节点lost
数据的流水线复制(一点一点的复制)
以 block的形式存储在hdfs中

机架感知

是一个脚本,记录着主机ip与交换机之前的对应关系
.告诉hadoop集群那台机器属于那台机架
NameNode分配节点的时候,会用到机架感知

HDFS文件读写流程(博主前面写了一篇,点超链接吧)

读写流程

HDFS数据完整性计算(保证数据的完整性)

在这里插入图片描述
数据写入之后进行数据首次校验,文件系统周期性进行校验,防止数据丢失。
读取数据之前进行数据校验,若

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值