hadoop基本知识

目录

一:概念

1:Apache基金会(开源,公开,不要钱,能看到源码)

2:服务器(节点)

3:机架

二:hadoop概述(实现其他例如 hbase hive等的平台)

三:hadoop组件介绍

四:hadoop版本介绍


一:概念

1:Apache基金会(开源,公开,不要钱,能看到源码)

是专门为支持开源软件项目而办的一个非盈利性组织

2:服务器(节点)

可以理解为我们的一台笔记本/台式机

在这里可以认为是我们的一台虚拟机

后面学习中,我们会把一台服务器称为一个节点

(企业里任务和程序基本都是运行在服务器上。

服务器内存和cpu以及硬盘等资源和性能远高于pc机)

可以安装的硬盘比机器多得多。

3:机架

负责存放服务器的架子

可以理解为鞋架

(一个公司里,会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群)

二:hadoop概述(实现其他例如 hbase hive等的平台)

(1:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

存储消耗硬盘 计算消耗cpu和内存 可以管理硬盘和cpu 内存

分布式存储:将一个很大的数据进行切分然后分别存储在各个节点。

分布式计算:在不同的节点单独计算然后进行合并。

(2:作者Doug Cutting 受Google三篇论文的启发,开发了hadoop。(2.0之前还没有yarn)

Google FS 文件管理系统 filesystem

MapReduce 分布式管理框架

BigTable 大表

三:hadoop组件介绍

hadoop是一个统称,目前hadoop主要包含三大组件

hdfs:是一个分布式存储框架,适合海量数据存储

mapreduce:是一个分布式计算框架,适合海量数据计算

yarn:是一个资源调度平台,负责给计算框架分配计算资源(2.0才有)

四:hadoop版本介绍

目前,hadoop已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以针对hadoop也出现了很多版本

Apache hadoop(所用的版本)

官方版本

Cloudera hadoop(CDH)

使用下载最多的版本,稳定,有商业支持(收费),在Apache的基础上打上了一些patch。推荐使用。

HortonWorks(HDP)

基于Apache的版本进行了集成,结合Ambari可以实现平台化快速安装部署。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值