1、开源Hadoop及其生态概述
1.1 Hadoop概述
概念:Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力,几乎所有主流厂商都围绕Hadoop提供开发工具开源软件、商业化工具和技术服务,给大数据处理营造最佳的集成环境。
特点:1高可靠性 2高效性 3成本低 4高可扩展性 5高容错性 6丰富API
Hadoop核心组件构成:HDFS(解决海量数据存储问题) MapReduce(解决海量数据计算问题) YARN(解决资源调度和计算耦合的问题)
生态圈组件表
组件 | 功能 |
HDFS | Hadoop的分布式文件系统 |
MapReduce | 分布式计算框架 |
YARN | 分布式资源管理和调度 |