【大数据学习】hadoop-mapReduce阶段

最新推荐文章于 2022-02-22 17:32:16 发布

重生之我在异世界打工

最新推荐文章于 2022-02-22 17:32:16 发布

阅读量133

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_44628586/article/details/104569824

版权

大数据专栏收录该内容

11 篇文章 1 订阅

订阅专栏

mapperReduce阶段

大概流程图

在这里插入图片描述

MapReduce编程规范

用户编写的程序分成三个部分：Mapper、Reducer和Driver。（代码上传到git）

hadoop序列化

java的序列化serializable是一个重量级的序列化框架，序列化后会附带很多额外的信息，不利于高效的网络传输。
hadoop序列化Writable
1 紧凑
2 快速
3 可扩展
4 互操作

编写bean时，实现Writable接口，重写序列化和反序列化方法，
注意：
1 参数一一对应顺序要一致
2 要有无参的构造方法
3 一般要写toString方法 方便查看数据


//序列化方法
public void write(DataOutput out) throws IOException {
	out.writeLong(upFlow);
	out.writeLong(downFlow);
	out.writeLong(sumFlow);
}
//反序列化方法
public void readFields(DataInput in) throws IOException {
	upFlow = in.readLong();
	downFlow = in.readLong();
	sumFlow = in.readLong();
}

如果想要实现bean的排序，作为key传输必须实现Comparable借口，重写compareTo方法，
public int compareTo(FlowBean o) {
	// 倒序排列，从大到小
	return this.sumFlow > o.getSumFlow() ? -1 : 1;
}

MapReduce框架原理

在这里插入图片描述

InputFormat数据输入

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。map阶段的并行度由切片的数量决定。

两个概念

数据块：Block是HDFS物理上把数据分成一块一块。
数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。

Job提交流程源码和切片源码详解（面试）

重生之我在异世界打工

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【大数据学习】hadoop-mapReduce阶段

mapperReduce阶段大概流程图MapReduce编程规范用户编写的程序分成三个部分：Mapper、Reducer和Driver。（代码上传到git）hadoop序列化java的序列化serializable是一个重量级的序列化框架，序列化后会附带很多额外的信息，不利于高效的网络传输。hadoop序列化Writable1 紧凑2 快速3 可扩展4 互操作编写bean...
复制链接

扫一扫