1 hdfs基本概念
hdfs(hadoop distributed file system)是hadoop分布式文件系统的简称, hdfs是hadoop的文件系统,用于在网络上管理跨多个计算机上的数据集。
2 hdfs设计原则
1) 硬件失效
硬件失效是常态而不是意外。检测错误、快速和自动恢复是HDFS的核心架构。
2) 流式访问
应用运行在HDFS需要允许流式访问它的数据集。这不是普通的应用程序运行在普通的文件系统上。HDFS是被设计用于批量处理而非用户交互。设计的重点是高吞吐量访问而不是低延迟数据访问。
3) 大数据集
运行在HDFS的应用程序有大数据集。一个典型文档在HDFS是GB到TB级别的。因此,HDFS是用来支持大文件。它应该提供高带宽和可扩展到上百节点在一个集群中。它应该支持在一个实例中有以千万计的文件数
4) 简单一致性模型
HDFS应用需要一个一次写入多次读取的文件访问模型。一个文件一旦创建,写入和关系都不需要改变。支持在文件的末端进行追加数据而不支持在文件的任意位置进行修改。
5) 移动计算比移动数据更划算如果应用的计算在它要操作的数据附近执行那就会更高效。尤其是数据集非常大的时候。这将最大限度地减少网络拥堵和提高系统的吞吐量。这个假设是在应用运行中经常移动计算到要操作的数据附近比移动数据数据更好HDFS提供接口让应用去移动计算到数据所在的位置。
6) 轻便的跨异构的软硬件平台
HDFS被设计成可轻便从一个平台跨到另一个平台。这促使HDFS被广泛地采用作为应用的大数据集系统。