hadoop离线day02--Apache Hadoop

hadoop离线day02--Apache Hadoop


内容大纲

#Apache Hadoop入门
    介绍概念  狭义  广义
    hadoop起源
    hadoop特性优点
#Apache Hadoop搭建
    hadoop集群 主从架构
        hdfs集群 yarn集群
    集群角色 集群规划
    集群配置
    format初始化
    启停脚本
    webUI页面
    hadoop初体验   现象与疑惑 后续学习方向
#Apache hadoop辅助功能
    jobhistory服务 查看历史执行记录
    文件系统垃圾桶机制 回收站

Apache Hadoop入门

  • 介绍

    • 狭义上:hadoop指的是Apache一款java开源软件,是一个大数据分析处理平台。

      • Hadoop ==HDFS:分布式文件系统==。 解决了海量数据存储问题。

        Hadoop Distributed File System (HDFS™)
      • Hadoop ==MapReduce:分布式计算框架==。解决海量数据计算问题。

        A framework for job scheduling and cluster resource management.
      • Hadoop ==YARN:集群资源管理和任务调度==。

    • 广义上:Hadoop指的是==hadoop生态圈==。

      提供了大数据的几乎所有软件。
      采集、存储、导入、分析、挖掘、可视化、管理...
  • Hadoop起源发展

    • Hadoop之父--==Doug Cutting== 卡大爷

    • 起源项目Apache Nutch。 致力于构建一个==全网搜索引擎==。

      1、爬取互联网网页 --->存储在哪里? 海量数据存储问题
      ​
      2、基于网页创建倒排索引。--->如何计算?  海量数据计算问题
    • Google也在做搜索,也遇到这些问题,内部解决了。

      • ==google==不想开源,但是又憋的难受,写论文。

      • 前后写了==3篇论文==(谷歌是使用c实现的)。

        谷歌分布式文件系统(GFS)------>HDFS
        谷歌版MapReduce 系统------>Hadoop MapReduce
        bigtable---->HBase
      • 基于论文的影响 Nutch团队实现了相应的java版本开源组件。

    • Nutch团队把HDFS和MapReduce抽取独立成为单独软件在==2008年贡献给了Apache==。开源。

    • Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫hadoop,他灵光一闪,就把这技术命名为 Hadoop,而且还用了黄色小象作为标示 Logo。

  • Hadoop特性优点

    • ==分布式、扩容能力==

      不再注重单机能力 看中的是集群的整体能力。
      动态扩容、缩容。
    • ==成本低==

      在集群下 单机成本很低 可以是普通服务器组成集群
      意味着大数据处理不一定需要超级计算机。
    • ==高效率 并发能力==

    • ==可靠性==

    • ==通用性==

      hadoop精准区分技术和业务。
      ​
      做什么?(what need to do)---->业务问题(20%)
      怎么做?(how to do)----->技术问题(80%)
      ​
      Hadoop把技术实现了 用户负责业务问题。
      ​
      原来大数据这么简单 可以这么玩。

Apache Hadoop集群搭建

  • 发行版本

    • ==官方社区版本== Apache基金会官方

      • 版本新 功能最全的

      • 不稳定 兼容性需要测试 bug多

    • ==商业版本== 商业公司在官方版本之上进行商业化发行。著名:==Cloudera==、hotonWorks、MapR

      • 稳的一批 兼容性极好 技术支持 本地化支持 一键在线安装

      • 版本不一定是最新的 辅助工具软件需要收费

        Cloudera发行的hadoop生态圈软件叫做CDH版本。
        Cloudera’s Distribution Including Apache Hadoop。
        ​
        https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html
        ​
        Hortonworks Data Platform (HDP)
    • 本课程中 使用的是==Apache 2.7.5==稳定版本。

  • Hadoop本身版本变化

    • hadoop 1.x

      只有hdfs mapreduce. 架构过于垃圾 性能不高 当下企业中没人使用了。
    • ==hadoop 2.x==

      hdfs MapReduce  yarn  尤其2.x高系
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值