hadoop基本知识

最新推荐文章于 2024-05-01 17:24:41 发布

山海自有归期

最新推荐文章于 2024-05-01 17:24:41 发布

阅读量324

点赞数

分类专栏：大数据文章标签： hadoop mapreduce big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50691399/article/details/121880828

版权

大数据专栏收录该内容

12 篇文章 1 订阅

订阅专栏

目录

1：Apache基金会（开源，公开，不要钱，能看到源码）

2：服务器(节点)

二：hadoop概述（实现其他例如 hbase hive等的平台）

三：hadoop组件介绍

四：hadoop版本介绍

一：概念

1：Apache基金会（开源，公开，不要钱，能看到源码）

是专门为支持开源软件项目而办的一个非盈利性组织

2：服务器(节点)

可以理解为我们的一台笔记本/台式机

在这里可以认为是我们的一台虚拟机

后面学习中，我们会把一台服务器称为一个节点

（企业里任务和程序基本都是运行在服务器上。

服务器内存和cpu以及硬盘等资源和性能远高于pc机）

可以安装的硬盘比机器多得多。

3：机架

负责存放服务器的架子

可以理解为鞋架

（一个公司里，会有很多服务器。尤其是hadoop集群大到上千台服务器搭建成集群）

二：hadoop概述（实现其他例如 hbase hive等的平台）

（1：Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

存储消耗硬盘计算消耗cpu和内存可以管理硬盘和cpu 内存

分布式存储：将一个很大的数据进行切分然后分别存储在各个节点。

分布式计算：在不同的节点单独计算然后进行合并。

（2：作者Doug Cutting 受Google三篇论文的启发，开发了hadoop。(2.0之前还没有yarn）

Google FS 文件管理系统 filesystem

MapReduce 分布式管理框架

BigTable 大表

三：hadoop组件介绍

hadoop是一个统称，目前hadoop主要包含三大组件

hdfs：是一个分布式存储框架，适合海量数据存储

mapreduce：是一个分布式计算框架，适合海量数据计算

yarn：是一个资源调度平台，负责给计算框架分配计算资源（2.0才有）

四：hadoop版本介绍

目前，hadoop已经演变为大数据计算的代名词，形成了一套完善的大数据计算的生态系统，所以针对hadoop也出现了很多版本

Apache hadoop（所用的版本）

官方版本

Cloudera hadoop(CDH)

使用下载最多的版本，稳定，有商业支持(收费)，在Apache的基础上打上了一些patch。推荐使用。

HortonWorks(HDP)

基于Apache的版本进行了集成，结合Ambari可以实现平台化快速安装部署。

山海自有归期

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop基本知识

本文主要是hadoop的相关基础知识，包括hadoop的组件的概念等
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。