1. 简单的介绍一下HDFS(HDFS是什么?)
- HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。
- 分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。
- HDFS使用Master和Slave结构对集群进行管理。一般一个 HDFS 集群只有一个 Namenode 和一定数目的Datanode 组成。Namenode 是 HDFS 集群主节点,Datanode 是 HDFS 集群从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。
- 可以存储超大文件
a. 这里的“超大文件”是指几百MB、GB甚至TB级别的文件。
b. 数据块(block)
i. 大文件会被分割成多个block进行存储,block大小默认为128MB。每一个block会在多个datanode上存储多份副本,默认是3份。 - 流式数据访问
a. 最高效的访问模式是 一次写入、多次读取 - 运行在普通廉价的服务器上
a. HDFS设计理念之一就是让它能运行在普通的硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据的高可用。
b. 横向扩张