分布式系统组件简介

本文介绍了分布式系统的重要组件,包括Hadoop的三个核心部分:分布式文件系统HDFS,用于数据存储和备份;MapReduce编程模型,实现分而治之的数据处理;以及Yarn,作为分布式资源管理器,协调集群资源。通过理解这些组件,读者可以更好地掌握分布式系统的工作原理。
摘要由CSDN通过智能技术生成

HDFS简介
MapReduce简介
Yarn简介

Hadoop

  • Apache官方版本
    • 1.x
    • 2.x
    • 2.6.4
  • 商业发行版
    • CDH 5.7.x

分布式文件系统HDFS

* 端口50070
  • 具有分布式的集群结构,我们把实际存储数据的节点Datanode
  • 具有一个统一对外提供查询,存储,搜索的机器节点Namenode
    • 对外能够和客户端打交道
    • 对内跟实际存储数据的节点打交道
  • 具有备份机制 解决了单点故障
  • 具有统一的API 对客户端来说无需担心集群内部的事情 只要我们调用API,就可以进行文件的读取,存储,搜索等,甚至可以提供统一的文件引用
    例:fs =new FileSyatem( )
    fs.add fs.copy fs.rm 等等

分布式编程模型MapReduce

  • 解决分布式数据计算 (处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值