Hadoop入门(持续更新)

最新推荐文章于 2024-07-19 00:13:26 发布

IU小迷弟

最新推荐文章于 2024-07-19 00:13:26 发布

阅读量241

点赞数 1

分类专栏：大数据笔记 Java 文章标签： hadoop hdfs kafka spark flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44366140/article/details/112338517

版权

Java 同时被 3 个专栏收录

16 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

9 篇文章 1 订阅

订阅专栏

定义:
Apache所开发的并行计算框架和分布式文件系统.

Hadoop最初用作Nutch底层的海量数据存储和处理，后来人们发现他也非常适合大数据场景下的数据存储和处理，主要用作海量离线数据的存储和离线数据的计算。

优势:高可靠,高扩展,高效,高容错

Hadoop1.x与Hadoop2.x区别(耦合性)
在这里插入图片描述

核心模块
HadoopCommon:
工具类,之前叫Hadoopcore

包含:

configuration(系统配置工具)

RPC(远程调用)

序列化机制

FileSystem(抽象类文件系统)

作用:通过硬件搭建云计算环境提供基本服务,并为运行在该平台的软件开发提供所需要的api

HDFS:
分布式文件系统,为海量数据提供存储

基于节点搭建,可以存在一个父节点(Name Node),一个父节点中可以存在多个子节点(Data Node)
在这里插入图片描述

Name Node:
接受用户操作请求维护文件系统的目录结构,管理文件block(块)之间的关系,block与datanode之间的关系

Name node对HDFS的目录,文件和块的CRUD等基本操作

block存储管理在整个HDFS集群中有且只有唯一一个处于active(活跃)状态namenode节点,该节点负责对这个命名空间(HDFS)进行管理

Data Node:
储存文件,文件被分为block储存咋磁盘上为保证数据安全,文件会有多个副本 name node和client(客户端)的指令进行存储或者检索block,并且周期性的向name node节点报告它存了哪些文件的block

Yarn
ResourceManager:

处理客户端请求

监控NodeManager

启动或监控ApplicationMaster

资源分配与调度

NodeManager:

管理单个节点上的资源

处理来自ResourceManager的命令

处理来自ApplicationManager的命令

ApplicationMaster:

负责数据的切分

为应用程序申请资源并分配给内部的任务

任务的监控与容错

Container:

Yarmn中的资源抽象,它封装了某个节点上的对维度资源

主要为ApplicationMaster服务

如:内存,cpu,磁盘,网络等
在这里插入图片描述

MapReduce
基于Yarn的大型数据集并行处理系统,计算模型,进行大数据量的计算

Map(映射):并航处理输入数据

Reduce(归约):对Map结果进行汇总
在这里插入图片描述
hadoop生态圈的主要组件：

HDFS：一个提供高可用获取应用数据的可分布式系统，为海量数据提供储存

MapReduce：一个并行处理大量数据的编程模型

Hbase:一个可扩展的分布式数据库，支持大表的结构化数据储存，建立在HDFS之上的，面向列的NOsql（非关系型数据库）数据库，用于快速速写大量数据

Hive：建立在Hadoop上的数据仓库基础架构，可以用来提取数据转化加载（ETC），是一种储存，查询，分析储存在Hadoop中的大规模数据机制

       hive定义了简单的类sql查询语句，称为HQL，

Pig：支持并行计算的高级高级数据流语言和执行框架，是MapReduce编程的复杂性的抽象

Zookeeper：应用于分布式应用的高性能的协调服务，为分布式应用提供一致性服务的软件，其提供的功能包括：配置维护，域名服务，分布式同步，组服务等。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop入门(持续更新)

定义:Apache所开发的并行计算框架和分布式文件系统.Hadoop最初用作Nutch底层的海量数据存储和处理，后来人们发现他也非常适合大数据场景下的数据存储和处理，主要用作海量离线数据的存储和离线数据的计算。优势:高可靠,高扩展,高效,高容错Hadoop1.x与Hadoop2.x区别(耦合性)核心模块HadoopCommon:工具类,之前叫Hadoopcore包含:configuration(系统配置工具)RPC(远程调用)序列化机制FileSystem(抽象类文件系统)作用:
复制链接

扫一扫

专栏目录

IU小迷弟 CSDN认证博客专家 CSDN认证企业博客

码龄6年

52: 原创

54万+: 周排名

229万+: 总排名

4万+: 访问

: 等级

714: 积分

10: 粉丝

28: 获赞

37: 评论

43: 收藏

私信

关注

热门文章

分类专栏

笔记 15篇
数据库 3篇
每日一文 8篇
linux 1篇
Java 16篇
大数据 9篇
运维 3篇
python
docker 2篇
topic 1篇
partition 1篇
命令 1篇
hive 2篇
sql 1篇
pull
ubuntu 2篇
hadoop 1篇
hbase 1篇

最新评论

java mysql发送数据到kafka，消费数据之后将数据保存进hive
三三三三不动弹: 您好可以给一下maven依赖吗
Application application xxx failed 2 times due to AM Container for appattempt_xxx exited with exit
艾伦: 怎么解决的，我也碰到这个问题了
Application application xxx failed 2 times due to AM Container for appattempt_xxx exited with exit
Wine_95: 第二张图怎么看出来哪两个依赖冲突了？
Application application xxx failed 2 times due to AM Container for appattempt_xxx exited with exit
汽水泡泡泡泡泡球: 解决了，谢谢
Application application xxx failed 2 times due to AM Container for appattempt_xxx exited with exit
汽水泡泡泡泡泡球: 2023-06-05 16:26:27,621 INFO mapreduce.Job: Job job_1685952485303_0003 failed with state FAILED due to: Application application_1685952485303_0003 failed 2 times due to AM Container for appattempt_1685952485303_0003_000002 exited with exitCode: 1 Failing this attempt.Diagnostics: [2023-06-05 16:26:26.577]Exception from container-launch. Container id: container_1685952485303_0003_02_000001 Exit code: 1 [2023-06-05 16:26:26.584]Container exited with a non-zero exit code 1. Error file: prelaunch.err. Last 4096 bytes of prelaunch.err : Last 4096 bytes of stderr : 错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster [2023-06-05 16:26:26.586]Container exited with a non-zero exit code 1. Error file: prelaunch.err. Last 4096 bytes of prelaunch.err : Last 4096 bytes of stderr : 错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster 您好，请问我这是什么问题

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。