hadoop基础(一)—初识hadoop

haoop的起源

Hadoop是Apache软件基金会的顶级开源项目,是由原雅虎公司Doug Cutting根据Google发布的学术论文而创建的开源项目。Doug Cutting被称为Hadoop之父,他打造了目前在云计算和大数据领域里如日中天的Hadoop。
Hadoop的发音是[hædu:p],Hadoop 这个名字不是一个缩写,而是一个虚构的名字。Doug Cutting解释Hadoop的得名:“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短、容易发音和拼写,没有太多的意义,并且不会被用于别处,小孩子恰恰是这方面的高手”。

hadoop的概述
  • 官方定义:

    hadoop 发展为高可靠,高性能,分布式计算的开源软件,hadoop的类库是一个可使用简单的编程模型,通过计算机集群,为大数据集群提供分布式计算的框架。hadoop的设计规模从单一服务器到数千台机器,每个都提供本地计算和存储,框架本身提供计算机集群高可用的服务而不是依靠硬件来提供高可用性。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序,低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统。

  • hadoop的特点

    • 可靠性:维护多个副本数据,确保能够对失败的节点进行数据处理;
    • 高效性:以并行的方式工作,通过并行处理加快处理速度;
    • 伸缩性:分布式集群,能处理PB级数据;
  • hadoop版本演进

当前Hadoop有两大版本:Hadoop 1.0和Hadoop 2.0。

  • Hadoop1.0被称为第一代Hadoop,由分布式文件系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为0.20.x、0.21.X,0.22.x和Hadoop 1.x。其中0.20.x是比较稳定的版本,最后演化为1. x,变成稳定版本。0.21.x和0.22.x则增加了NameNode HA等新特性。

  • 第二代Hadoop被称为Hadoop2.0,是为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题而提出的,对应Hadoop版本为Hadoop 0.23.x和2.x。

  • 针对Hadoop1.0中NameNode HA不支持自动切换且切换时间过长的风险,Hadoop2.0提出了基于共享存储的HA方式,支持失败自动切换切回。

  • 针对Hadoop 1.0中的单NameNode制约HDFS的扩展性问题,提出了HDFS Federation机制,它允许多个NameNode各自分管不同的命名空间进而实现数据访问隔离和集群横向扩展。

  • 针对Hadoop 1.0中的MapReduce在扩展性和多框架支持方面的不足,提出了全新的资源管理框架YARN,它将JobTracker中的资源管理和作业控制功能分开,分别由组件ResourceManager和ApplicationMaster实现。其中,ResourceManager负责所有应用程序的资源分配,而ApplicationMaster仅负责管理一个应用程序。相比于 Hadoop 1.0,Hadoop 2.0框架具有更好的扩展性、可用性、可靠性、向后兼容性和更高的资源利用率以及能支持除了MapReduce计算框架外的更多的计算框架.

  • Hadoop2.x目前是业界主流使用的Hadoop版本

hadoop 的组件:
  • hadoop common: 提供其他hadoop模块的公共组件;

  • hadoop HDFS: 高可用的分布式文件系统,存储海量数据;

  • hadoop YARN: 任务调度框架和集群资源管理器;

  • hadoop MapReduce: 一个分布式的大数据的并行计算框架;

hadoop 各组件的作用
  • mapreduce

    1、处理海量数据

    2、分布式

    3、思想:分而治之,大数据分为小数据集,合并并统计数据结果,进行数据集逻辑业务处理

  • HDFS

    1、存储海量数据

    2、分布式、安全性

    3、数据以block的方式存储

    默认为128 MB。比如:
    200 MB可分为:
    * blk_00001 : 128 MB
    * blk_00002: 72 MB

  • YAN:分布式资源管理框架

    • 管理集群资源框架(内存,CPU核);
    • 分配调度资源集群
hadoop的生态系统
  • 大数据的仓库Hive

  • 大数据协作框架

    1.数据的转换 snoop

    2.文件收集 flume

    3.任务调度Oozie

    4.大数据web工具Hue

  • 分布式数据库HBase

  • 内存计算框架Spark

  • 企业大数据平台
    Cloudera 和CDH

hadoop 商业版本

image

  • Cloudera: 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,目前它是规模最大、知名度最高的Hadoop公司。Cloudera产品主要为CDH(Cloudera的Hadoop发行版),Cloudera Manager (集群的软件分发及管理监控平台),Cloudera Support。目前最新的 CDH 5.0除了包含Hadoop 2版本(MapReduce v2 over YARN)外,也可以让使用者启动并兼容MapReduce v1模式,但新旧模式并不能够同时执行于同一集群节点上。

  • Hortonworks: 2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建的公司。Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,HDP除了常见的项目外还包含了Ambari,一款开源的安装和管理系统。HCatalog,一个元数据管理系统。

  • MapR: 2009年成立的MapR公司在Hadoop领域显得有点特立独行,它提供了一款独特的发行版 。用新架构重写HDFS,同时在API级别,和目前的Hadoop 发行版保持兼容。

  • EMC: EMC的Greenplum HD是基于mapR版本二次开发改造而成,特点同mapR。

  • IBM:在2011/5月推出了InfoSphere BigInsights软件。该软件包括Apache Hadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB2数据库的连接件以及IBM BigSheets.IBM在平台管理,安全认证,作业调度算法,与DB2及netezza的集成上做了增强。

  • Intel: 2014年3月英特尔放弃发行Hadoop版本,转而支持Cloudera,并成为Cloudera的最大战略股东以及成为Cloudera董事会的成员之一

  • 各发行版本的特点

image


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值