MapReduce之切片

最新推荐文章于 2024-04-16 07:25:00 发布

weixin_49063354

最新推荐文章于 2024-04-16 07:25:00 发布

阅读量419

点赞数

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_49063354/article/details/107973516

版权

MapReduce之切片1 切片与MapTask并行度决定机制1）问题引出 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？2）MapTask并行度决定机制 **数据块：**Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储

摘要由CSDN通过智能技术生成

MapReduce之切片

1 切片与MapTask并行度决定机制

1）问题引出

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job

的处理速度。

思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那

么1K的数据，也启动8个MapTask，

会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了

MapTask并行度？

2）MapTask并行度决定机制

**数据块：**Block是HDFS物理上把数据分成一块一块。数据块是

HDFS存储数据单位。

**数据切片：**数据切片只是在逻辑上对输入进行分片，并不会在磁盘上

将其切分成片进行存储。数据切片是

MapReduce程序计算输入数据的单位，一个切片会对应启动一个

MapTask。

3）切片的一般规则

（1）一个Job的Map阶段并行度由客户端在提交Job时的切片数决定

（2）每一个Spilt切片分配一个MapTask并行势力处理

（3）默认情况下，切片大小 = BlockSize

（4）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

2 Job提交流程源码和切片源码详解

1）Job提交流程源码详解

waitForCompletion()

submit();

	// 1建立连接
	connect();	
		// 1）创建提交Job的代理
		new Cluster(getConfiguration());
			// （1）判断是本地运行环境还是yarn集群运行环境
			initialize(jobTrackAddr, conf); 

	// 2 提交job
	submitter.submitJobInternal(Job.this, cluster)
	// 1）创建给集群提交数据的Stag路径
	Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);

	// 2）获取jobid ，并创建Job路径
	JobID jobId = submitClient.getNewJobID();

	// 3）拷贝jar包到集群
	copyAndConfigureFiles(job, submitJobDir);	
	rUploader.uploadFiles(job, jobSubmitDir);

	// 4）计算切片，生成切片规划文件
	writeSplits(job, submitJobDir);
		maps = writeNewSplits(job, jobSubmitDir);
		input.getSplits(job);

	// 5）向Stag路径写XML配置文件
	writeConf(conf, submitJobFile);
	conf.writeXml(out);

	// 6）提交Job,返回提交状态
	status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

Job提交流程源码重点关注：

如果在本地运行，两个重点：切片信息，配置信息；

如果在集群上运行，三个重点：切片信息，配置信息和依赖的jar包。

2）FileInputFormat切片源码解析（input.getSplit(job))

（1）程序先找到数据存储的目录

（

最低0.47元/天解锁文章

weixin_49063354

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce之切片

MapReduce之切片1 切片与MapTask并行度决定机制1）问题引出 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高集群性能吗？MapTask并行任务是否越多越好呢？哪些因素影响了MapTask并行度？2）MapTask并行度决定机制 **数据块：**Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储
复制链接

扫一扫