【大数据】hadoop概述（学习笔记）

wmh1024

于 2023-10-10 14:30:00 发布

阅读量81

点赞数 1

分类专栏：大数据文章标签：大数据 hadoop 学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wmh1024/article/details/133623315

版权

大数据专栏收录该内容

8 篇文章 1 订阅

订阅专栏

一、介绍

Hadoop是Apache软件基金会的开源软件

hadoop核心组件：

Hadoop HDFS（分布式文件存储系统）：解决海量数据存储
Hadoop YARN (集群资源管理和任务调度框架）：解决资源任务调度
Hadoop MapReduce（分布式计算框架）：解决海量数据计算

广义上Hadoop指的是围绕Hadoop打造的大数据生态圈

二、简史

Hadoop之父：Doug Cutting

Hadoop起源于Apache Lucene子项目：Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎

三、现状

HDFS作为为分布式文件存储系统，处在生态圈的底层与核心地位

YARN作为分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了Hadoop地位

MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据

四、优点

扩容能力：可以分布在各个节点

成本低：部署普通廉价的机器组成集群来处理大数据

效率高：通过并发数据，可以在节点之间动态并行的移动数据

可靠性：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署计算任务

通用性（与业务脱钩）、简单性

五、版本

开源社区版：官方发行版本，兼容性稳定性一般

http://hadoop.apache.org/

商业发行版：稳定性好、得加钱…

Cloudera、Hortonworks

六、架构变迁

Hadoop 1.0

HDFS（分布式文件存储）

MapReduce（资源管理和分布式数据处理）

Hadoop 2.0

HDFS（分布式文件存储）

MapReduce （分布式数据处理）

YARN（集群资源管理、任务调度）

Hadoop 3.0

精简内核、类路径隔离、she11脚本重构

Hadoop HDFS：EC纠删码、多NameNode支持

Hadoop MapReduce：任务本地化优化、内存参数自动推断

Hadoop YARN：Timeline Service v2、队列配置

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【大数据】hadoop概述（学习笔记）

Hadoop是Apache软件基金会的开源软件广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wmh1024 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。