大数据学习--MapReduce运行模式

zl202111

于 2022-12-17 18:50:18 发布

阅读量536

点赞数

分类专栏：大数据 Hadoop 文章标签： mapreduce 大数据学习

本文链接：https://blog.csdn.net/zl202111/article/details/128356032

版权

大数据同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

Hadoop

6 篇文章 0 订阅

订阅专栏

MapReduce运行模式

一、MapReduce运行模式
- 1、本地运行模式
- 2、集群运行模式
二、MapReduce性能优化策略

一、MapReduce运行模式

1、本地运行模式

在当前的开发环境模拟MapReduce执行环境，处理的数据及输出结果在本地操作系统。

2、集群运行模式

把MapReduce程序打成一个Jar包，提交至Yarn集群上去运行任务。由于Yarn集群负责资源管理和任务调度，程序会被框架分发到集群中的节点上并发的执行，因此处理的数据和输出结果都在HDFS文件系统中。
将5.1节点的词频统计项目MRWordCount打成jar包，上传到YARN集群上运行任务

二、MapReduce性能优化策略

使用Hadoop进行大数据运算，当数据量极其大时，那么对MapReduce性能的调优重要性不言而喻，尤其是Shuffle过程中的参数配置对作业的总执行时间影响特别大，我们可以从五个方面对MapReduce程序进行性能调优，分别是数据输入、Map阶段、Reduce阶段、Shuffle阶段和其他调优属性方面。