目录
二:hadoop概述(实现其他例如 hbase hive等的平台)
一:概念
1:Apache基金会(开源,公开,不要钱,能看到源码)
是专门为支持开源软件项目而办的一个非盈利性组织
2:服务器(节点)
可以理解为我们的一台笔记本/台式机
在这里可以认为是我们的一台虚拟机
后面学习中,我们会把一台服务器称为一个节点
(企业里任务和程序基本都是运行在服务器上。
服务器内存和cpu以及硬盘等资源和性能远高于pc机)
可以安装的硬盘比机器多得多。
3:机架
负责存放服务器的架子
可以理解为鞋架
(一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群)
二:hadoop概述(实现其他例如 hbase hive等的平台)
(1:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。
存储消耗硬盘 计算消耗cpu和内存 可以管理硬盘和cpu 内存
分布式存储:将一个很大的数据进行切分然后分别存储在各个节点。
分布式计算:在不同的节点单独计算然后进行合并。
(2:作者Doug Cutting 受Google三篇论文的启发,开发了hadoop。(2.0之前还没有yarn)
Google FS 文件管理系统 filesystem
MapReduce 分布式管理框架
BigTable 大表
三:hadoop组件介绍
hadoop是一个统称,目前hadoop主要包含三大组件
hdfs:是一个分布式存储框架,适合海量数据存储
mapreduce:是一个分布式计算框架,适合海量数据计算
yarn:是一个资源调度平台,负责给计算框架分配计算资源(2.0才有)
四:hadoop版本介绍
目前,hadoop已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以针对hadoop也出现了很多版本
Apache hadoop(所用的版本)
官方版本
Cloudera hadoop(CDH)
使用下载最多的版本,稳定,有商业支持(收费),在Apache的基础上打上了一些patch。推荐使用。
HortonWorks(HDP)
基于Apache的版本进行了集成,结合Ambari可以实现平台化快速安装部署。