什么是Hadoop

最新推荐文章于 2024-09-20 23:54:36 发布

八月的雨@七月的风

最新推荐文章于 2024-09-20 23:54:36 发布

阅读量338

点赞数 7

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/weixin_47521167/article/details/136780854

版权

本文介绍了Hadoop的基础架构，包括其核心组件HDFS、YARN和MapReduce，以及大数据技术生态体系中的各种关键技术。重点阐述了Hadoop的优势，如低成本、高可靠性和高扩展性。

摘要由CSDN通过智能技术生成

Hadoop是由Apache基金会所开发的分布式系统基础架构，旨在解决海量数据存储和计算分析问题。狭义上来说，Hadoop是指Apache Hadoop开源框架，包含以下三种核心组件：

Hadoop HDFS(Hadoop Distributed File System):分布式文件存储系统，解决海量数据存储问题。
Hadoop Yarn:集群资源管理和任务调度框架，解决资源任务调度问题。
Hadoop MapReduce：分布式计算框架，解决海量数据计算问题。
广义上来说，Hadoop通常是指围绕Hadoop打造的大数据生态圈，部分技术栈如下图所示

Hadoop官网：hadoop.apache.org
本小节主要作为技术了解内容，先总体了解下大数据技术生态体系技术分层，方便后续清楚的知道Hadoop相关技术栈技术所处的层及作用。下图是大数据技术生态每层及对应技术。

本小节主要作为技术了解内容，先总体了解下大数据技术生态体系技术分层，方便后续清楚的知道Hadoop相关技术栈技术所处的层及作用。下图是大数据技术生态每层及对应技术。
在这里插入图片描述

Hadoop具备如下优势特点:

低成本
Hadoop可以由多台廉价普通机器组成，支持TB和PB级别数据存储，并不需要运行在昂贵且高可靠性的硬件上。
高可靠、容错性
HDFS中数据存储有多副本支持数据高可靠性，即使一些副本出现故障也能保障数据可使用。MapReduce计算过程中任务失败，可以自动进行任务重新分配进行任务重试。此外，HDFS和Yarn都支持高可用配置，当主节点挂掉时，可以自动选主切换，保证集群可靠性。
高扩展性
Hadoop集群可以扩展到上千个节点以支持数据存储和计算，节点多支持数据量大、支持更大并行度的并行计算。
高效性
Hadoop可以并行在节点之间动态移动数据，保证各个节点数据动态平衡；基于MapReduce进行数据处理计算时，可以并行处理数据，效率极高。
总之，Hadoop具备高可靠、高容错、高扩展、高效性这些优势在互联网领域中已经得到广泛运用。