mapreduce设置分区partition

最新推荐文章于 2023-12-30 17:26:36 发布

爱哭的猫ff

最新推荐文章于 2023-12-30 17:26:36 发布

阅读量2.5k

点赞数

分类专栏： hadoop-MR

本文链接：https://blog.csdn.net/zhangpengfei104/article/details/48160645

版权

hadoop-MR 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在执行MR程序时我们可能想要将不同的数据放到不同的文件中。比如说想要将相同省份的信息放到一个文件中，不同省份的信息放在不同的文件中。这个时候如果有多个reduce的话就可以将相同的省份放到同一个reduce中，这样就可以将相同的省份放到同一个文件中。

partition是在map阶段完成后执行的。将分好区的数据传输到reduce端。mapreduce中默认的分区是HashPartition。

源代码如下：

public class HashPartition<K , V> extends Partition<K , V>
   {
        public int getPartition(K key,V value,int numReduceTasks){
              return (key.hashCode()&Integer.MAX_VALUE) % numReduceTasks;
            }
       }

key,value为map端传来的kay,value值，numReduceTasks是reduce的数量，具有相同key的数据返回的数据是相同的，也就可以分配到同一个reduce上去执行。

如果想要实现自定义的分区就可以重写这个getPartition方法即可。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱哭的猫ff

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Mapreduce之Partition

weixin_43006131的博客

11-17

608

Partition了解 Partition位置 Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求： 1）均衡负载，尽量的将工作均匀的分配给不同的reduce。 2）效率，分配速度一定要快。 patition类结构 1.Partitioner是partitioner的基类，如果需要定制partitioner也需要继承该类。 2...

Mapreduce的Partition分区介绍

klionl的博客

04-15

1144

Hadoop--入门Mapreduce的Partition分区介绍1. Partition分区2. 自定义Partitioner步骤3. 自定义案例 Mapreduce的Partition分区介绍 1. Partition分区在前面的Mapreduce流程中提到过在shuffle过程中有分区操作，分区决定着你开启的Reduce Task数量和最终的输出文件数量，在前面的案例中，我们能看到最终的输...

参与评论您还未登录，请先登录后发表或查看评论

MapReduce分区的使用(Partition)

weixin_30909575的博客

02-11

194

MapReduce中的分区默认是哈希分区，根据map输出key的哈希值做模运算，如下 int result = key.hashCode()%numReduceTask; 如果我们需要根据业务需求来将map读入的数据按照某些特定条件写入不同的文件，那就需要自定义实现Partition，自定义规则举个简单的例子，使用MapReduce做wordcount，但是需要根据单词的长度...

MapReduce的分区

weixin_30629977的博客

02-17

271

第一部分分区简述(比如国家由省市来划分) 分区：map的输出经过partitioner分区进行下一步的reducer。一个分区对应一个reducer，就会使得reducer并行化处理任务。默认为1 1. Partitioner是partitioner的基类，如果需要定制partitioner也需要继承该类。 2. HashPartitioner是mapreduce的...

mapreduce 分区

weixin_35752122的博客

01-04

444

MapReduce 是一种编程模型，用于对大型数据集进行并行计算。MapReduce 程序包含两个阶段：Map 阶段和 Reduce 阶段。 Map 阶段将输入数据集分成若干个“分片”，然后将每个分片传递给一个 Map 函数。Map 函数处理输入分片，并生成中间键值对。 Reduce 阶段接收 Map 函数的输出，将所有具有相同键的值分组在一起，然后将这些值传递给一个 Reduce 函数。Redu...

MapReduce分区

qq_45899782的博客

11-26

1218

分区步骤 step1 定义Mapper step2 自定义Partitioner step3 定义Reduce逻辑 step4 主类中设置分区类和ReduceTask个数 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import or

17、MapReduce的分区Partition介绍

05-29

在 Hadoop MapReduce 中，可以通过 Job 类的 `setNumReduceTasks(int num)` 方法来设置 Reduce Task 的数量，以适应不同的分区需求。调整 Reduce Task 的数量可以优化系统资源的利用，提高并行处理能力，同时也可以...

MapReduce的分区（Partition）

qq_41975699的博客

12-12

2004

在MapReduce中，数据进行map转换后，根据map后数据的key值进行散列派发。同一个分区的数据会发送到同一个Reduce中去处理。

MapReduce之Partition分区实例操作

qq_47947471的博客

09-28

904

1.需求: 将统计结果按照手机归属地不同省份输出到不同文件中（分区） 2.案例数据: phone_data.txt 如下: 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 200 1363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 200 13631579910

MapReduce之分区

zhangdy12307的博客

04-28

1428

MapReduce之分区模式描述分区模式是将记录进行分类，但并不关心记录的顺序目的该模式的目的是将数据集中相似的记录分成不同的，更小的数据集适用场景适用这一个模式的最主要的要求是：必须提前知道有多少个分区，例如，如果按照天数对周进行分区，那末将会有七个分区适用场景如下按连续值裁剪分区按类别剪裁分区分片性能分析在性能方面这个模式主要关注的是，每个分区的结果数据中是否有类似...

MapReduce数据分区

dingqiu6346的博客

09-14

270

一个：多个代码实现： Mapper： .mapreduce.Mapper.Context; public class EmployeeMapper extends Mapper<LongWritable, Text, LongWritable, Employee> { @Override p...

大数据-MapReduce分区

逍遥云恋

12-23

633

5. MapReduce 分区在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行处理例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当中统计相同类型的数据, 就可以实现类似的数据分区和统计等其实就是相同类型的数据, 有共性的数据, 送到一起去处理 Reduce 当中默认的分区只...

Partition MapReduce

suibianshen2012的专栏

08-31

604

1.解析Partition Map的结果，会通过partition分发到Reducer上，Reducer做完Reduce操作后，通过OutputFormat，进行输出，下面我们就来分析参与这个过程的类。 Mapper的结果，可能送到Combiner做合并，Combiner在系统中并没有自己的基类，而是用Reducer作为Combiner的基类，他们对外的功能是一样的，只是使用的位置和使

map/reduce之间的shuffle，partition，combiner过程的详解

weixin_33802505的博客

09-21

445

1，什么是mapreduce ？Mapreduce是一种编程模型，是一种编程方法，抽象理论。hadoop要分布式包括两部分，一是分布式文件系统hdfs,一部是分布式计算框，就是mapreduce,缺一不可，也就是说，可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程。MR由两个阶段组成，map和reduce，用户只需要实现map（）和reduce（）两个...

MapReduce的分区和分组