- 博客(9)
- 资源 (2)
- 收藏
- 关注
原创 HDFS故障类型和其检测方法
常见的故障三种 节点故障,通讯故障,数据损坏。节点故障主要关注DateNode的检查方法DateNode每三秒会向NameNode发送自己的心跳信息如果十分钟内NameNode没有收到心跳信息,就判定DataNode死亡通讯故障每当发送数据,接受者会回复一个应答信号如果没有收到应答信号(多次尝试),发送者就会认为主机已经挂掉,或发生网络错误数据损坏校验和-数据当向硬盘存储数据时,也会存储校验和...
2021-02-28 22:37:14 799
原创 大数据面试之HDFS高可用原理
HDFS高可用原理:HDFS HA(High Available)同时配置两个Namenode,状态分别是Active和Standby。Standby Namenode作为热备份,在机器发生故障时能够快速进行故障转移,同时在日常维护的时候进行Namenode切换。Namenode只能配置一主一备,不能多于两个Namenode。主Namenode处理所有的操作请求(读写),而Standby只是作为slave,用来同步主Namenode的状态,保证发生故障时能够快速切换。为了使Standby Namen.
2021-02-28 21:29:23 203
原创 大数据面试之HDFS架构的稳定性
1. 心跳机制和重新复制每个 DataNode 定期向 NameNode 发送心跳消息。如果超过指定时间没有收到心跳消息,则将 DataNode 标记为死亡。NameNode 不会将任何新的 IO 请求转发给标记为死亡的 DataNode,也不会再使用这些 DataNode 上的数据。由于数据不再可用,可能会导致某些块的副本个数小于其默认值,NameNode 会跟踪这些块,并在必要的时候进行重新复制.2. 数据的完整性由于存储设备故障等原因,存储在 DataNode 上的数据块也会发生损坏。为了
2021-02-28 00:01:41 134
原创 大数据面试之HDFS的读写流程
1. 读流程客户端首先带着读取路径向NameNode发送读取请求NameNode接收到请求后,会先判断是否有权限,读取文件是否存在等等,如果都无误则将 文件所在的DataNode的节点位置,发送给客户端部分或者全部的DataNode的节点位置客户端得到文件块存储的位置后,会调用read()方法,去读取数据在读取之前会先进行一个checksum的操作,去判断一下校验和是否正确,正确则读,不正确 则去下一个存放该block块的DataNode节点上读取读取完NameNode这次发送过来
2021-02-27 23:41:21 203
原创 大数据面试之HDFS副本存放机制
HDFS视硬件错误为常态,硬件服务器随时有可能发生故障。 为了容错,文件的所有 block 都会有副本。每个文件的 block 大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定,也可以在之后改变。 数据副本默认保存三个副本,我们可以更改副本数以提高数据的安全性 在hdfs-site.xml当中修改dfs.replication配置属性,即可更改文件的副本数低版本Hadoop副本节点选择
2021-02-27 21:34:24 559
原创 HDFS数据块的认知
数据块 hdfs将所有的文件全部抽象成为block块来进行存储,不管文件大小,全部一视同仁都是以block块的统一大小和形式进行存储,方便我们的分布式文件系统对文件的管理基本概念所有的文件都是以block块的方式存放在HDFS文件系统当中,在Hadoop1当中,文件的block块默认大小是64M,Hadoop2当中,文件的block块大小默认是128M,block块的大小可以通过hdfs-site.xml当中的配置文件(dfs.block.size)进行指定。一个文件100M,上传.
2021-02-26 20:42:10 176
原创 HDFS架构和组成
HDFS架构和组成Hdfs 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成NameNode, DataNode,client,和SencondayNameNode组成NameNode(Master):管理 HDFS 的命名空间,维护元数据。接收客户端的请求。管理数据块(Block)映射信息.配置副本策略DataNode(Slave):存储实际的数据块 。执行数据块的读/写操作。向namenode上传心
2021-02-24 22:49:07 243
原创 HDFS的特点
HDFS的特点高容错保存多个副本,且提供容错机制。 副本丢失或宕机自动恢复,默认存3份。系统故障是不可避免的,如何做到故障之后的数据恢复和容错处理是至关重要的。HDFS通过多方面保证数据的可靠性,多份复制并且分布到物理位置的不同服务器上,数据校验功能、后台的连续自检数据一致性功能都为高容错提供了可能。故障类型节点失败(DN服务挂了)节点没坏,网络坏了数据块损坏(不稳定的网络传输、磁盘损坏)故障检测机制节点失败检测机制数据错误检测机制读写容错机制读:Check
2021-02-24 22:46:17 688
原创 简单的介绍一下HDFS(HDFS是什么?)
1. 简单的介绍一下HDFS(HDFS是什么?)HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。HDFS使用Master和Slave结构对集群进行管理。一般一个 HDFS 集群只有一个 Namenode 和一定数目的Datanode
2021-02-24 17:10:28 4102
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人