hadoop学习工作总结(一)

hadoop的优点:
    高可靠性:hadoop按位存储
    高扩展性:hadoop 数据是通过文件系统分布式存储的。
    高效性:能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
    高容错性:能自动保存数据的多个副本,并且能够自动将失败的任务重橷分配。

hadoop核心:HDFS、MapReduce、HBase

HDFS:当硬件出故障,HDFS会自动检测并快速自动恢复
             流式读,支持批量处理,高吞吐量
             超大规模数据集,支持大文件存储。
             一致性,数据写入之后就不能做更改。
   
      HDFS是一个 管理者--工作者结构的体系,HDFS集群由一个namenode和一些datanode组成的。namenode管理文件文件系统的元数据,datanode存储实际的数据。客户端通过namenode和datanode交互访问这个文件系统。客户端通过namenode以获取文件的元数据,而真正的文件读写操作是直接和datanode进行交互的。

      namenode维护文件系统树和这个树中所有的文件和目录,namenode也记录着每个文件的每个datanode块所在的位置,但namenode不是永久性的存储块的位置信息,因为在系统重启时,这些住处会由datanode重新建立。

      datanode是分布式文件系统的工作者,负责它们所在的物理节点上的存储管理,这些节点在客户端或者namenode需要是起到存储和检索的作用,并且把它们存储的块的信息通过块清单方式周期性的回馈给namenode。

      客户端访问hdfs的文件:客户端从namenode获得组成文件的数据块的位置列表,然后直接从datanode上读取文件数据,namenode不参与文件的传输的。

MapReduce:是一种分布式计算模型
           Map/Reduce框架是一个主/从架构。包括一个jobtracker和多个Tasktracker(集群中每个节点都有一个Tasktracker)。jobtracker是用户和mapreduce框架之间的交互点。Tasktracker按照Jobtracker的指令执行任务并处理map阶段到re-duce阶段的数据转移。

           MapReduce作业(Job)是客户端执行的单位,它包括了输入数据、MapReduce程序和配置信息。Hadoop通过把一个作业分成若干个小任务(Task)来处理,其包括两种类型的任务:Map任务和Reduce任务。有两种类型的节点控制着作业执行过程:Jobtracker和多个Tasktracker。Jobtracker通过调度任务在Tasktracker上运行,来协调所有运行在系统上的作业。Tasktracker运行任务的同时,把进度报告传送到Jobtracker,Jobtracker则记录着每项任务的整体进展情况。如果其中一个任务失败,Jobtracker可以重新调度任务到另外一个Tasktracker。

Hbase:是一个分布式的、面向列的开源数据库。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值