1、hdfs简介
1.1 什么是HDFS?
HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,是最基础的一部分,MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。
1.2 HDFS的设计目标
- 存储超大文件 HDFS适合存储大文件,单个文件大小通常在百MB以上 HDFS适合存储海量文件,总存储量可达PB,EB级
- 流式数据访问 为数据批处理而设计,关注数据访问的高吞吐量
- 硬件容错 基于普通机器搭建,硬件错误是常态而不是异常,因此错误检测和快速、自 动的恢复是HDFS最核心的架构目标
- 简单的一致性模型 一次写入,多次读取 一个文件经过创建、写入和关闭之后就不需要改变
- 不支持低时间延迟的数据访问 hdfs关心的是高数据吞吐量,不适合那些要求低时间延迟数据访问的应用。
- 本地计算 将计算移动到数据附近
1.3 HDFS的构成
数据块
- 文件以块为单位进行切分存储,块通常设置的比较大(最小6M,默认 128M)
- 块越大,寻址越快,读取效率越高,但同