引言
作为大数据生态的基石,Hadoop凭借其高可靠性、扩展性成为分布式计算的首选框架。本文将手把手带你完成Hadoop伪分布式模式部署,通过单节点模拟集群环境,为后续学习MapReduce、YARN等核心组件打下基础
目录
Hadoop 发展历史
1.1 起源(2002–2005)
Google 的三大论文:Hadoop 的核心思想来源于 Google 的分布式技术论文:
2003年:Google 发表《The Google File System》(GFS),提出分布式文件系统。
2004年:Google 发表《MapReduce: Simplified Data Processing on Large Clusters》,提出分布式计算模型。
2006年:Google 发表《Bigtable: A Distributed Storage System for Structured Data》,启发后续 NoSQL 数据库发展。
Doug Cutting 的贡献:受 Google 论文启发,Doug Cutting 和 Mike Cafarella 在 2002年 开始开发开源搜索引擎 Nutch,并在 2006年 将其分布式计算模块独立为 Hadoop(名称来源于 Doug Cutting 儿子的玩具大象)。
成为 Apache 项目(2006–2008)
2006年:Hadoop 正式成为 Apache 开源项目。
2008年:Hadoop 成为 Apache 顶级项目,同年 Yahoo! 成功用 Hadoop 集群处理 1TB 数据排序任务(仅需 209秒),验证其大规模数据处理能力。
Hadoop 1.0 时代(2009–2012)
2009年:Hadoop 1.0 发布,核心模块包括 HDFS(分布式文件系统) 和 MapReduce(分布式计算框架)。
生态初现:Apache Hive(数据仓库)、Apache Pig(脚本化数据处理)等项目加入生态。
Hadoop 2.0 与 YARN(2012–2015)
2012年:Hadoop 2.0 发布,引入 YARN(Yet Another Resource Negotiator),将资源管理与计算框架解耦,支持多种计算模型(如 Spark、Tez)。
商业化兴起:Cloudera、Hortonworks、MapR 等公司推出企业级 Hadoop 发行版。
生态爆发与挑战(2015–2020)
计算引擎多样化:Spark(内存计算)、Flink(流处理)等框架崛起,部分替代 MapReduce。
云原生趋势:AWS、Azure 等云厂商推出托管 Hadoop 服务(如 EMR),但 Hadoop 本地部署市场份额受云存储(如 S3)冲击。
当前阶段(2020至今)
Hadoop 3.x:支持 Erasure Coding(节省存储)、GPU 加速、容器化部署(Kubernetes 集成)。
生态融合:Hadoop 与云原生技术(如 Kubernetes)、实时计算(Flink)结合,适应现代数据湖架构。