hadoop离线day02--Apache Hadoop
内容大纲
#Apache Hadoop入门
介绍概念 狭义 广义
hadoop起源
hadoop特性优点
#Apache Hadoop搭建
hadoop集群 主从架构
hdfs集群 yarn集群
集群角色 集群规划
集群配置
format初始化
启停脚本
webUI页面
hadoop初体验 现象与疑惑 后续学习方向
#Apache hadoop辅助功能
jobhistory服务 查看历史执行记录
文件系统垃圾桶机制 回收站
Apache Hadoop入门
-
介绍
-
狭义上:hadoop指的是Apache一款java开源软件,是一个大数据分析处理平台。
-
Hadoop ==HDFS:分布式文件系统==。 解决了海量数据存储问题。
Hadoop Distributed File System (HDFS™)
-
Hadoop ==MapReduce:分布式计算框架==。解决海量数据计算问题。
A framework for job scheduling and cluster resource management.
-
Hadoop ==YARN:集群资源管理和任务调度==。
-
-
广义上:Hadoop指的是==hadoop生态圈==。
提供了大数据的几乎所有软件。 采集、存储、导入、分析、挖掘、可视化、管理...
-
-
Hadoop起源发展
-
Hadoop之父--==Doug Cutting== 卡大爷
-
起源项目Apache Nutch。 致力于构建一个==全网搜索引擎==。
1、爬取互联网网页 --->存储在哪里? 海量数据存储问题 2、基于网页创建倒排索引。--->如何计算? 海量数据计算问题
-
Google也在做搜索,也遇到这些问题,内部解决了。
-
==google==不想开源,但是又憋的难受,写论文。
-
前后写了==3篇论文==(谷歌是使用c实现的)。
谷歌分布式文件系统(GFS)------>HDFS 谷歌版MapReduce 系统------>Hadoop MapReduce bigtable---->HBase
-
基于论文的影响 Nutch团队实现了相应的java版本开源组件。
-
-
Nutch团队把HDFS和MapReduce抽取独立成为单独软件在==2008年贡献给了Apache==。开源。
-
Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫hadoop,他灵光一闪,就把这技术命名为 Hadoop,而且还用了黄色小象作为标示 Logo。
-
-
Hadoop特性优点
-
==分布式、扩容能力==
不再注重单机能力 看中的是集群的整体能力。 动态扩容、缩容。
-
==成本低==
在集群下 单机成本很低 可以是普通服务器组成集群 意味着大数据处理不一定需要超级计算机。
-
==高效率 并发能力==
-
==可靠性==
-
==通用性==
hadoop精准区分技术和业务。 做什么?(what need to do)---->业务问题(20%) 怎么做?(how to do)----->技术问题(80%) Hadoop把技术实现了 用户负责业务问题。 原来大数据这么简单 可以这么玩。
-
Apache Hadoop集群搭建
-
发行版本
-
==官方社区版本== Apache基金会官方
-
版本新 功能最全的
-
不稳定 兼容性需要测试 bug多
-
-
==商业版本== 商业公司在官方版本之上进行商业化发行。著名:==Cloudera==、hotonWorks、MapR
-
稳的一批 兼容性极好 技术支持 本地化支持 一键在线安装
-
版本不一定是最新的 辅助工具软件需要收费
Cloudera发行的hadoop生态圈软件叫做CDH版本。 Cloudera’s Distribution Including Apache Hadoop。 https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html Hortonworks Data Platform (HDP)
-
-
本课程中 使用的是==Apache 2.7.5==稳定版本。
-
-
Hadoop本身版本变化
-
hadoop 1.x
只有hdfs mapreduce. 架构过于垃圾 性能不高 当下企业中没人使用了。
-
==hadoop 2.x==
hdfs MapReduce yarn 尤其2.x高系
-