初识Hadoop

一、预备知识

1、linux常用命令

2、Java编程基础

二、Hadoop的前世今生

        各行各业的数据量越来越大,从GB级到TB级,再到PB级。增长的速度越来越快,数据的类型越来越多样,越来越多的数据集中在云端的服务器。各大企业,各个部门,都想从大量的数据中挖掘出有价值的东西,马云曾经说过“21实际核心的竞争是数据的竞争,谁拥有更多的数据谁就拥有未来”,数据越来越多之后,如何对大数据进行存储和分析。随着数据的增长,单机系统存在瓶颈:存储容量、读写效率、计算效率等。为啦解决这个问题,Google提出了三大技术来解决大规模莫的数据存储和处理,分别是:mapReduce、bigTable、GFS。这三个算得上是革命性的技术。他们的革命性变化如下:

       (1)成本降低,能用PC机,就不用大型机和高端存储。

       (2)软件容错硬件故障视为常态,同感软件保证可靠性。

       (3)简化并行分布式计算,无需控制节点同步和数据交换

     这三个技术虽然 很好,但是Google并没有开放源代码,于是出现了一个模仿Google的大数据技术的开源实现,那就是hadoop。

三、Hadoop的功能与优势

1、hadoop是什么?

      开源的分布式存储和分布式计算平台。属于apache的顶级目录

2、它为什么可以做分布式存储和分布式计算,是因为它包含如下两个部分:

    (1)HDFS:分布式文件系统,存储海量数据

    (2)mapReduce:并行处理框架,实现任务分解和调度

3、hadoop可以用来做什么?

      可以用来搭建大型的仓库、PB数据的存储、处理、分析、统计等业务

4、hadoop的优势?

    (1)高扩展

    (2)低成本

    (3)成熟的生态圈

四、Hadoop的生态系统及版本

       Hadoop除了有mapReduce和HDFS之外,还有一些其他的开源工具,比如:

    (1)HIVE。HIVE有什么用,比如写一个SQL语句,HIVE就会将SQL转化为hadoop任务去执行。降低了使用hadoop的门槛。

    (2)HBASE。它是一个额存储结构化数据的分布式数据库,它与传统的数据库不一样,HBASE放弃了传统的事物特性,追求更高的扩展。和HDFS相比,HBASE提供了数据的随机读写和实时访问,实现对表数据的读写功能。

   (3)zookeeper。动物管理员。监控hadoop集群里面的每个节点的状态,管理整个集群的配置,维护节点间数据的一致性等。

   (4)hadoop的版本。1.2是一个稳定的版本。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值