初识Hadoop

1、hadoop 概述之Hadoop名字的由来

 

Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod Johnson

 

Hadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名

 

Apache 社区的顶级项目官网域名规则:XXX.apache.org

 

hadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org storm.apache.org

 

reliable(可靠的) scalable(可扩展) distributed (分布式) computing(计算)

 

Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依赖硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,因此在计算机集群上提供高可用性服务,每个集群都可能容易出现故障。

 

Hadoop Common: 支持其他Hadoop模块的公共实用程序

 

Hadoop Distributed File System (HDFS™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。

 

Hadoop YARN:作业调度和集群资源管理的框架。

 

Hadoop MapReduce:一个用于大型数据集并行处理系统。

 

Hadoop 核心组件只分布式文件系统HDFS

 

源自于Google的GFS论文,论文发表于2003年10月

 

HDFS是GFS的克隆版

 

HDFS特点:扩展性(数据量大,🏠机器)、容错性(以块存储到各个服务器副本)、海量数据存储

 

 

例子:

 

文件、块、副本

文件:test.log . 大小200M

块(block):默认的blocksize是128M,2个块 = 128M + 72M

副本:HDFS默认3个副本

5台起机器分别把块1和块2以多副本的方式放到多个机器中,其实就是备份容灾一样挂掉一台服务器数据本部受到影响。

 

node1: blk1 blk2

node2:blk2

node3:blk1 blk2

node4:

node5:blk1

 

Hadoop核心组件之分布式计算框架MapReduce

 

源自于Google的MapReduce论文,改论文发表于2004年12月

 

MapReduce是Google MapReduce的克隆版

 

MapReduce特点:扩展性、容错性、海量数据离线处理

 

1、hadoop 概述之Hadoop名字的由来

 

Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod Johnson

 

Hadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名

 

Apache 社区的顶级项目官网域名规则:XXX.apache.org

 

hadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org storm.apache.org

 

reliable(可靠的) scalable(可扩展) distributed (分布式) computing(计算)

 

Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依赖硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,因此在计算机集群上提供高可用性服务,每个集群都可能容易出现故障。

 

Hadoop Common: 支持其他Hadoop模块的公共实用程序

 

Hadoop Distributed File System (HDFS™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。

 

Hadoop YARN:作业调度和集群资源管理的框架。

 

Hadoop MapReduce:一个用于大型数据集并行处理系统。

 

Hadoop 核心组件只分布式文件系统HDFS

 

源自于Google的GFS论文,论文发表于2003年10月

 

HDFS是GFS的克隆版

 

HDFS特点:扩展性(数据量大,🏠机器)、容错性(以块存储到各个服务器副本)、海量数据存储

 

 

例子:

 

文件、块、副本

文件:test.log . 大小200M

块(block):默认的blocksize是128M,2个块 = 128M + 72M

副本:HDFS默认3个副本

5台起机器分别把块1和块2以多副本的方式放到多个机器中,其实就是备份容灾一样挂掉一台服务器数据本部受到影响。

 

node1: blk1 blk2

node2:blk2

node3:blk1 blk2

node4:

node5:blk1

 

Hadoop核心组件之分布式计算框架MapReduce

 

源自于Google的MapReduce论文,改论文发表于2004年12月

 

MapReduce是Google MapReduce的克隆版

 

MapReduce特点:扩展性、容错性、海量数据离线处理

 

Input 数据写入 Splitting 数据分割 Mapping 数据映射 Shuffing数据从新洗牌 Reducing数据计算 Final result 最终结果

 

Hadoop核心组件之资源调度系统YARN

 

YARN:Yet Another Resource Negotiator

 

负责整个集群资源的管理和调度

 

YARN特点:扩展性、容错性、多框架资源统一调度

 

多框架资源统一调度一图说明:

Hadoop优势:

高可靠性:

1、数据存储:数据块多副本

 

2、数据计算:从新调度作业计算

 

高可扩展性:

1、存储/计算资源不够时,可以横向线性的扩展机器

 

2、一个集群可以包括数以千计的节点

 

 

其他优势:

1、存储在廉价的机器上,降低成本

 

2、成熟的生态圈

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值