初识Hadoop

最新推荐文章于 2023-07-22 10:10:11 发布

zhaoxiaoba123

最新推荐文章于 2023-07-22 10:10:11 发布

阅读量107

点赞数

分类专栏： Hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaoxiaoba123/article/details/108541431

版权

Hadoop 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1、hadoop 概述之Hadoop名字的由来

Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod Johnson

Hadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名

Apache 社区的顶级项目官网域名规则：XXX.apache.org

hadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org storm.apache.org

reliable（可靠的） scalable（可扩展） distributed （分布式） computing（计算）

Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它被设计成从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。库本身不是依赖硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，因此在计算机集群上提供高可用性服务，每个集群都可能容易出现故障。

Hadoop Common: 支持其他Hadoop模块的公共实用程序

Hadoop Distributed File System (HDFS™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。

Hadoop YARN：作业调度和集群资源管理的框架。

Hadoop MapReduce：一个用于大型数据集并行处理系统。

Hadoop 核心组件只分布式文件系统HDFS

源自于Google的GFS论文，论文发表于2003年10月

HDFS是GFS的克隆版

HDFS特点：扩展性（数据量大，🏠机器）、容错性（以块存储到各个服务器副本）、海量数据存储

例子：

文件、块、副本

文件：test.log . 大小200M

块（block）：默认的blocksize是128M，2个块 = 128M + 72M

副本：HDFS默认3个副本

5台起机器分别把块1和块2以多副本的方式放到多个机器中，其实就是备份容灾一样挂掉一台服务器数据本部受到影响。

node1: blk1 blk2

node2:blk2

node3:blk1 blk2

node4:

node5:blk1

Hadoop核心组件之分布式计算框架MapReduce

源自于Google的MapReduce论文，改论文发表于2004年12月

MapReduce是Google MapReduce的克隆版

MapReduce特点：扩展性、容错性、海量数据离线处理

1、hadoop 概述之Hadoop名字的由来

Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod Johnson

Hadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名

Apache 社区的顶级项目官网域名规则：XXX.apache.org

hadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org storm.apache.org

reliable（可靠的） scalable（可扩展） distributed （分布式） computing（计算）

Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它被设计成从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。库本身不是依赖硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，因此在计算机集群上提供高可用性服务，每个集群都可能容易出现故障。

Hadoop Common: 支持其他Hadoop模块的公共实用程序

Hadoop Distributed File System (HDFS™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。

Hadoop YARN：作业调度和集群资源管理的框架。

Hadoop MapReduce：一个用于大型数据集并行处理系统。

Hadoop 核心组件只分布式文件系统HDFS

源自于Google的GFS论文，论文发表于2003年10月

HDFS是GFS的克隆版

HDFS特点：扩展性（数据量大，🏠机器）、容错性（以块存储到各个服务器副本）、海量数据存储

例子：

文件、块、副本

文件：test.log . 大小200M

块（block）：默认的blocksize是128M，2个块 = 128M + 72M

副本：HDFS默认3个副本

5台起机器分别把块1和块2以多副本的方式放到多个机器中，其实就是备份容灾一样挂掉一台服务器数据本部受到影响。

node1: blk1 blk2

node2:blk2

node3:blk1 blk2

node4:

node5:blk1

Hadoop核心组件之分布式计算框架MapReduce

源自于Google的MapReduce论文，改论文发表于2004年12月

MapReduce是Google MapReduce的克隆版

MapReduce特点：扩展性、容错性、海量数据离线处理

Input 数据写入 Splitting 数据分割 Mapping 数据映射 Shuffing数据从新洗牌 Reducing数据计算 Final result 最终结果

Hadoop核心组件之资源调度系统YARN

YARN：Yet Another Resource Negotiator

负责整个集群资源的管理和调度

YARN特点：扩展性、容错性、多框架资源统一调度

多框架资源统一调度一图说明：

Hadoop优势：

高可靠性：

1、数据存储：数据块多副本

2、数据计算：从新调度作业计算

高可扩展性：

1、存储/计算资源不够时，可以横向线性的扩展机器

2、一个集群可以包括数以千计的节点

其他优势：

1、存储在廉价的机器上，降低成本

2、成熟的生态圈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初识Hadoop

1、hadoop 概述之Hadoop名字的由来Hadoop 创造之父 Doug Cutting Spring 创造之父 Rod JohnsonHadoop 名字的由来是 Doug Cutting 的孩子给他家一个黄色小熊的命名Apache 社区的顶级项目官网域名规则：XXX.apache.orghadoop.apache.org hive.apache.org hbase.apache.org spark.apache.org flink.apache.org sto...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。