大数据基础之Hadoop概述 -02

  1. 为什么要用Hadoop?
    解决大量数据存储和分析过程中遇到的问题。Hadoop为我们提供了一个可靠的、可扩展的存储和分析平台,另外Hadoop运行在商用软件上,而且是开源的、免费的,因此使用Hadoop的成本比较低,是在用户的承受范围之内的。

  2. Hadoop是什么?
    Hadoop是apache基金会旗下的一款顶级项目,用于解决大数据集的存储和计算分析,是用java语言开发的,所以具有跨平台性,也是开源的。它运行在廉价机器上,认为机器故障是常态,也是利用集群的cpu的并发和计算能力,性能非常高。

  3. 四个核心模块:
    HDFS(Hadoop distributed fileSystem):一种分布式文件存储系统,可提供对应用程序数据的高吞吐量。

    Yarn:Hadoop的作业调度和资源(cpu、磁盘、内存)管理的框架

    Mapreduce(mr):Hadoop的分布式计算框架,提供了移动计算而非移动数据的思想,利用并发加快计算能力

    Common:Hadoop框架的通用模块

  4. Google的三篇论文
    《GFS》:2003年发表,阐述了大数据集如何存储的问题,引入了分布式思想(将一个整体拆成多个子部分,子部分之间互相提供接口用于调用)。

    《Mapreduce》:2004年发表,阐述和解决了分布式文件系统上的大数据集如何快速分析、计算的问题。

    《bigtable》:2006年发表,阐述了如何解决非结构化的数据不适合存储在关系型数据库中,又提供了另外一种存储思想NoSQL(not only SQL)。

  5. 发展历史
    起源于nutch项目,创始人是道格.卡丁(doug Cutting)
    ndfs灵感来源于《GFS》
    Mapreduce的灵感来源于《Mapreduce》
    2006年ndfs和Mapreduce单独抽出来形成hadoop项目

  6. 版本
    1、社区版
    2、CDH版
    3、HDP版

  7. Hadoop生态系统
    Hadoop
    spark
    hbase
    flink
    zookeeper
    sqoop
    flume
    kafka

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值