Hadoop关键技术理解

本文深入探讨了Hadoop的关键技术,包括分布式文件系统HDFS和分布式计算框架MapReduce。HDFS主要负责大规模数据的分布式存储,强调数据冗余和高可用性。MapReduce则提供了一种处理大数据的计算模型,由Map阶段的拆分和Reduce阶段的聚合组成。通过这两个核心组件,Hadoop成为大数据处理的重要工具。
摘要由CSDN通过智能技术生成

Hadoop关键技术理解

  1. 前言

    大数据这几年特别火,从学校毕业后的工作也是和大数据相关的,但大数据具体是什么,有些什么关键技术?遇到有人问我这个问题的时候,只能说出比较有代表性的专有名词,如大数据的四个“V”以及hadoop, spark,storm等等,所以工作之余自己就查查资料,总结了一下对Hadoop关键技术的理解。

  2. Hadoop
    Hadoop的具体定义在网上一搜一大把,其关键技术主要是HDFS和MapReduce以及后来的yarn,具体如下所述:
    一、HDFS
    HDFS是分布式文件存储系统的简称,是根据google的GFS演化而来,HDFS的主要特点是能够分布式的存储海量数据,并通过调度系统(比如yarn)完成文件的高效管理。
    1)HDFS的主要工作是数据的存储和读取,工作原理如下图所示:
    HDFS的数据写入和读取
    2)总结:
    1、从HDFS的工作原理可以看出,集群的核心是name_node,一般情况下为了集群的稳定,会使用双机热备模式。
    2、集群必须满足各个节点间的网络是互通的,以及需要实现节点间的自动登录访问(ssh)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值