一、介绍
Hadoop是Apache软件基金会的开源软件
hadoop核心组件:
- Hadoop HDFS(分布式文件存储系统):解决海量数据存储
- Hadoop YARN (集群资源管理和任务调度框架):解决资源任务调度
- Hadoop MapReduce(分布式计算框架):解决海量数据计算
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈
二、简史
Hadoop之父:Doug Cutting
Hadoop起源于Apache Lucene子项目:Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎
三、现状
HDFS作为为分布式文件存储系统,处在生态圈的底层与核心地位
YARN作为分布式通用的集群资源管理系统和任务调度平台 ,支撑各种计算引擎运行,保证了Hadoop地位
MapReduce作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端 ,导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据
四、优点
扩容能力:可以分布在各个节点
成本低:部署普通廉价的机器组成集群来处理大数据
效率高:通过并发数据,可以在节点之间动态并行的移动数据
可靠性:能自动维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务
通用性(与业务脱钩)、简单性
五、版本
开源社区版:官方发行版本,兼容性稳定性一般
http://hadoop.apache.org/
商业发行版:稳定性好、得加钱…
Cloudera、Hortonworks
六、架构变迁
Hadoop 1.0
HDFS(分布式文件存储)
MapReduce(资源管理和分布式数据处理)
Hadoop 2.0
HDFS(分布式文件存储)
MapReduce (分布式数据处理)
YARN(集群资源管理、任务调度)
Hadoop 3.0
精简内核、类路径隔离、she11脚本重构
Hadoop HDFS:EC纠删码、多NameNode支持
Hadoop MapReduce:任务本地化优化、 内存参数自动推断
Hadoop YARN:Timeline Service v2、队列配置