1.2 Hadoop核心组件

1.2 Hadoop核心组件

  • Hadoop是所有搜索引擎的共性问题的廉价解决方案
    • 如何存储持续增长的海量网页: 单节点 V.S. 分布式存储
    • 如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算
    • HDFS 解决分布式存储问题
    • MapReduce 解决分布式计算问题
  • Hadoop Common: The common utilities that support the other Hadoop modules.(hadoop的核心组件)
  • Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.(分布式文件系统)(简称HDFS分布式文件系统)
    • 源自于Google的GFS论文, 论文发表于2003年10月
    • HDFS是GFS的开源实现
    • HDFS的特点:
    • 扩展性&容错性&海量数量存储
    • 将文件切分成指定大小的数据块, 并在多台机器上保存多个副本
    • 数据切分、多副本、容错等操作对用户是透明的
  • 下面这张图是数据块多份复制存储的示意
    • 图中对于文件 /users/sameerp/data/part-0,其复制备份数设置为2, 存储的BlockID分别为1、3。
    • Block1的两个备份存储在DataNode0和DataNode2两个服务器上
    • Block3的两个备份存储在DataNode4和DataNode6两个服务器上

在这里插入图片描述

  • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

    • 分布式计算框架
    • 源于Google的MapReduce论文,论文发表于2004年12月
    • MapReduce是GoogleMapReduce的开源实现
    • MapReduce特点:扩展性&容错性&海量数据离线处理
  • Hadoop YARN: A framework for job scheduling and cluster resource management.(资源调度系统)

    • YARN: Yet Another Resource Negotiator
    • 负责整个集群资源的管理和调度
    • YARN特点:扩展性&容错性&多框架资源统一调度
      在这里插入图片描述
      总结:
      Hadoop的核心组件是:
      Hadoop Common
      HDFS分布式文件存储系统
      Hadoop MapReduce 分布式计算框架
      Hadoop YARN 资源调度系统 负责整个集群资源的管理和调度

热爱学习的小伙伴看到这里点个赞呗,欢迎各位留言评论

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值