Hadoop 简介

最新推荐文章于 2024-08-08 10:34:27 发布

请大佬带带我

最新推荐文章于 2024-08-08 10:34:27 发布

阅读量4.1w

点赞数 6

文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_45967421/article/details/108990325

版权

hadoop 特点
扩容能力
能可靠(reliably)地存储和处理PB级别的数据。如果数据量更大，存储不下了,再增加节点就可以了。

成本低
可以通过普通机器组成的服务器集群来分发以及处理数据.这些服务器集群可达数千个节点。

高效率
通过分发计算程序,hadoop可以在数据所在节点上(本地)并行地(parallel)处理他们,这使得处理非常的迅速

可靠性
hadoop能够自动地维护数据的多份副本,并且在任务失败后能够自动地重新部署(redeploy)计算任务.

hadoop 是一个适合海量数据的分布式存储和分布式计算的平台。
三大组件
hdfs：是一个分布式存储框架，适合海量数据存储
MapReduce：是一个分布式计算框架，适合海量数据计算
yarn：是一个资源调度平台，负责各计算框架分配计算资源
、

Hadoop 版本介绍
目前，hadoop 已经演变成为大数据计算的代名词，形成了一套完善的大数据计算的生态系统，所以针对hadoop也出现了很多版本

Http：//hadoop.apache.org/releases.html
Apache hadoop
Cloudera hadoop （CDH）
使用下载最多的版本，稳定，有商业支持（收费），在Apache的基础上打上了一些patch
HortonWorks（HDP）
基于Apache的版本进行了集成，结合Ambari可以实现平台化快速安装部署。

在这里插入图片描述

分布式存储介绍
-在分布式存储系统中，分散在不同节点中的数据可能属于同一个文件。
-为了阻止众多的文件，把文件可以存放到不同的文件夹中，文件夹可以一级一级的包含。我们把这种组织形式称为命名空间（namespace）。
命名空间管理着整个服务器急群中的所有文件。
-急群中不同的节点承担不同的职责。
*负责命名空间职责的节点称为主节点（master node）
*负责存储真是数据职责的节点称为从节点（slave node）
*主节点负责管理文件系统的文件结构，从节点负责存储真实的数据，称为主从结构（master-slaves）
*用户操作时，应该先和主节点打交道，查询数据在那些从节点上存储，然后再到从节点读取。
*在主节点上，为了加快用户访问的速度，会把整个命名空间信息都放在内存中，当存储的文件越来越多，
那么主节点就需要越多的内存空间。
*在从节点存储数据时，有的原始数据文件可能很大，有的可能很小，大小不一样的文件不容易管理，
那么可以抽象出一个独立的存储文件单位，称为块（block）
*数据存放在集群中，可能因为网络原因或者节点硬件原因造成访问失败，最好采用副本（replication）机制，
把数据同时备份到多台节点中，这样数据就安全了，数据丢失或者访问失败的概率就小了。