【MapReduce概述及常用的数据序列化类型】

最新推荐文章于 2024-07-29 09:10:44 发布

demonGoth'boi

最新推荐文章于 2024-07-29 09:10:44 发布

阅读量115

点赞数 4

文章标签： mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_73965413/article/details/139808176

版权

文章目录

MapReduce 概述
- MapReduce 进程
- 常用的数据序列化类型

MapReduce 概述

MapReduce 是一个分布式运算程序的编程框架。

核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

优点：

易于编程。用户只关心，业务逻辑。实现框架的接口。
良好扩展性，可以动态增加服务器，解决计算资源不够的问题。
高容错性。任何一台机器挂掉，可以将任务转移到其他节点。
适合海量数据的计算(TB/PB)。几千台服务器共同计算。

缺点：

不擅长实时计算。
不擅长流式计算。spark streaming 和 flink 可以。
不擅长 DAG 有向无环图计算。spark 可以。

1）MapReduce 运算一般需要分成 2 个阶段：

Map 阶段和 Reduce 阶段。

2）Map 阶段的并发 MapTask，完全并行运行，互不相干。

3）Reduce 阶段的并发 ReduceTask，完全不相干，但是它们的数据依赖于上一个阶段所有 MapTask 并发实例的输出。

4）MapReduce 编程模型只能包含一个 Map 阶段和一个 Reduce 阶段，如果用户的业务逻辑非常复杂，那就只能多个 MapReduce 程序，串行运行。

MapReduce 进程

1） MrAppMaster：负责整个程序的过程调度及状态协调。

2）MapTask：负责 Map 阶段的整个数据处理流程。

3）ReduceTask 负责 Reduce 阶段的整个数据处理流程。

常用的数据序列化类型

Java 类型	Hadoop Writable 类型
Boolbean	BooleanWritable
Byte	ByteWritable
Int	IntWritable
Float	FloatWritable
Double	DoubleWritable
String	Text
Map	MapWritable
Array	ArrayWritable
Null	NullWritable

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【MapReduce概述及常用的数据序列化类型】

MapReduce 是一个分布式运算程序的编程框架。核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。易于编程。用户只关心，业务逻辑。实现框架的接口。良好扩展性，可以动态增加服务器，解决计算资源不够的问题。高容错性。任何一台机器挂掉，可以将任务转移到其他节点。适合海量数据的计算(TB/PB)。几千台服务器共同计算。不擅长实时计算。不擅长流式计算。spark streaming 和 flink 可以。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。