Hadoop概述及生态圈(大数据学习)

第一讲 Hadoop概述及生态圈

预习笔记

一、Hadoop生态系统圈


以上图片是Hadoop 1.0 生态圈。

本文总结如下组件信息或基本架构:

  • HDFS(分布式文件系统)
  • MapReduce(分布式计算框架)
  • HBase(实时分布式数据库)
  • Hive(数据仓库)
  • Pig(数据流处理)
  • Mahout(数据挖掘库)
  • Sqoop(数据库ETL工具)
  • Flume(日志收集工具)

    以上图片是Hadoop 2.0 生态圈。

新增重要组件:

  • YARN(集群资源管理系统)

二、HDFS(分布式文件系统)

  1. 思想来源:源自于Google在2003年10月发表的论文。假设有一个TB级文件中的数据待处理,而目前只有内存为GB级的电脑。这时可以将TB级文件切割成若干GB级文件并同时发送到各个电脑进行处理,处理后再通过一个专门的电脑将这些GB级文件碎片整合并传输给客户端。
  2. 基本特点:
    具有良好的拓展性。
    高容错性与可靠性。
    适合PB级以上海量数据的存储。
  3. 架构示意图:

    (1)NameNode: 角色是Master,管理HDFS的名称空间与数据块的映射信息,同时配置副本策略并处理客户端读写请求。
    (2)DataNode: 角色是Slave,存储实际的数据块并进行读或写操作。
    (3)Client: 切分文件,与NameNode交互获取文件位置信息,与DataNode交互读取或者写入数据,同时管理访问HDFS。
    (4)Secondary NameNode: 辅助NameNode分担工作量,在紧急情况下可辅助恢复NameNode,但没有NameNode的数
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值