hadoop部分：hadoop生态圈的理解（HDFS，MapReduce，HBASE，zookeeper，hive，sqoop，flume，kafka，yarn，spark）

最新推荐文章于 2025-10-01 01:11:29 发布

原创

最新推荐文章于 2025-10-01 01:11:29 发布 · 8.1k 阅读

28 ·

CC 4.0 BY-SA版权

本文详细介绍了Hadoop生态系统的各个组件，包括HDFS的超大文件和流式数据访问特性，MapReduce的分布式计算框架，HBase的分布式NoSQL数据库功能，以及Zookeeper的分布式协作服务。Hadoop适用于处理和存储海量数据，但不适用于低延迟访问和大量小文件场景。

一、简介
Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

二、核心
Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统，MapReduce即并行计算框架，HBase对应于BigTable，即分布式NoSQL列数据库，外加Zookeeper对应于Chubby，即分布式锁设施。

Hadoop核心系统

Hadoop大数据应用生态中最主要的组件及其关系

Hadoop Common

Hadoop Common是在Hadoop0.2版本之后分离出来的HDFS和MapReduce独立子项目的内容，是Hadoop的核心部分，能为其他模块提供一些常用工具集，如序列化机制、Hadoop抽象文件系统FileSystem、系统配置工具Configuration，并且在为其平台上的软件开发提供KPI等。其他Hadoop子项目都是以此为基础而建立来的。

HDFS

HDFS（Hadoop分布式文件系统）源自于Google的GFS论文，发表于2003年10月，HDFS是GFS的实现版。HDFS是Hadoop体系中数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障，在低成本的通用硬件上运行。HDFS简化了文件的一次性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适用带有数据集的应用程序。HDFS提供一次写入多次读取的机制，数据以块的形式，同时分布存储在不同的物理机器上。
HDFS默认的最基本的存储单位是64MB的数据块，和普通文件系统一样，HDFS中的文件被分成64MB

最低0.47元/天解锁文章