hadoop学习工作总结（一）

最新推荐文章于 2024-07-16 10:24:12 发布

xiaozhuangfeng

最新推荐文章于 2024-07-16 10:24:12 发布

阅读量754

点赞数

分类专栏： hadoop 文章标签： hadoop 分布式文件系统

本文链接：https://blog.csdn.net/xiaozhuangfeng/article/details/38876225

版权

hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

hadoop的优点：
    高可靠性：hadoop按位存储
    高扩展性：hadoop 数据是通过文件系统分布式存储的。
    高效性：能够在节点之间动态的移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
    高容错性：能自动保存数据的多个副本，并且能够自动将失败的任务重橷分配。

hadoop核心：HDFS、MapReduce、HBase

HDFS：当硬件出故障，HDFS会自动检测并快速自动恢复
流式读，支持批量处理，高吞吐量
超大规模数据集，支持大文件存储。
一致性，数据写入之后就不能做更改。

      HDFS是一个管理者--工作者结构的体系，HDFS集群由一个namenode和一些datanode组成的。namenode管理文件文件系统的元数据，datanode存储实际的数据。客户端通过namenode和datanode交互访问这个文件系统。客户端通过namenode以获取文件的元数据，而真正的文件读写操作是直接和datanode进行交互的。

      namenode维护文件系统树和这个树中所有的文件和目录，namenode也记录着每个文件的每个datanode块所在的位置，但namenode不是永久性的存储块的位置信息，因为在系统重启时，这些住处会由datanode重新建立。

      datanode是分布式文件系统的工作者，负责它们所在的物理节点上的存储管理，这些节点在客户端或者namenode需要是起到存储和检索的作用，并且把它们存储的块的信息通过块清单方式周期性的回馈给namenode。

      客户端访问hdfs的文件：客户端从namenode获得组成文件的数据块的位置列表，然后直接从datanode上读取文件数据，namenode不参与文件的传输的。

MapReduce：是一种分布式计算模型
           Map/Reduce框架是一个主/从架构。包括一个jobtracker和多个Tasktracker(集群中每个节点都有一个Tasktracker)。jobtracker是用户和mapreduce框架之间的交互点。Tasktracker按照Jobtracker的指令执行任务并处理map阶段到re-duce阶段的数据转移。

           MapReduce作业（Job）是客户端执行的单位，它包括了输入数据、MapReduce程序和配置信息。Hadoop通过把一个作业分成若干个小任务（Task）来处理，其包括两种类型的任务：Map任务和Reduce任务。有两种类型的节点控制着作业执行过程：Jobtracker和多个Tasktracker。Jobtracker通过调度任务在Tasktracker上运行，来协调所有运行在系统上的作业。Tasktracker运行任务的同时，把进度报告传送到Jobtracker，Jobtracker则记录着每项任务的整体进展情况。如果其中一个任务失败，Jobtracker可以重新调度任务到另外一个Tasktracker。

Hbase：是一个分布式的、面向列的开源数据库。

xiaozhuangfeng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习工作总结（一）

hadoop的优点：高可靠性：hadoop按位存储高扩展性：hadoop 数据是通过文件系统分布式存储的。高效性：能够在节点之间动态的移动数据，并保证各个节点的动态平衡，因此处理速度非常快。高容错性：能自动保存数据的多个副本，并且能够自动将失败的任务重橷分配。hadoop核心：HDFS、MapReduce、HBaseHDFS：当硬件出
复制链接

扫一扫

专栏目录