Hadoop概述及生态圈（大数据学习）

最新推荐文章于 2024-07-15 11:02:31 发布

xlkdxes

最新推荐文章于 2024-07-15 11:02:31 发布

阅读量1k

点赞数

分类专栏：大数据分析文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xlkdxes/article/details/107572889

版权

本文详细介绍了Hadoop生态系统，包括HDFS、MapReduce、Hive、Pig、Mahout、HBase、ZooKeeper、Sqoop和Flume等组件。HDFS作为分布式文件系统，提供高容错性和拓展性；MapReduce为分布式计算框架；Hive和Pig支持数据仓库和分析；Mahout实现数据挖掘；HBase是实时分布式数据库；ZooKeeper用于分布式协作服务；Sqoop用于数据同步；Flume则专注于日志收集。

摘要由CSDN通过智能技术生成

第一讲 Hadoop概述及生态圈

预习笔记

一、Hadoop生态系统圈

以上图片是Hadoop 1.0 生态圈。

本文总结如下组件信息或基本架构：

HDFS（分布式文件系统）
MapReduce（分布式计算框架）
HBase（实时分布式数据库）
Hive（数据仓库）
Pig（数据流处理）
Mahout（数据挖掘库）
Sqoop（数据库ETL工具）
Flume（日志收集工具）

以上图片是Hadoop 2.0 生态圈。

新增重要组件：

YARN（集群资源管理系统）

二、HDFS（分布式文件系统）

思想来源：源自于Google在2003年10月发表的论文。假设有一个TB级文件中的数据待处理，而目前只有内存为GB级的电脑。这时可以将TB级文件切割成若干GB级文件并同时发送到各个电脑进行处理，处理后再通过一个专门的电脑将这些GB级文件碎片整合并传输给客户端。
基本特点：
具有良好的拓展性。
高容错性与可靠性。
适合PB级以上海量数据的存储。
架构示意图：

（1）NameNode: 角色是Master，管理HDFS的名称空间与数据块的映射信息，同时配置副本策略并处理客户端读写请求。
（2）DataNode: 角色是Slave，存储实际的数据块并进行读或写操作。
（3）Client: 切分文件，与NameNode交互获取文件位置信息，与DataNode交互读取或者写入数据，同时管理访问HDFS。
（4）Secondary NameNode: 辅助NameNode分担工作量，在紧急情况下可辅助恢复NameNode，但没有NameNode的数

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。