转换步骤使用分区

分区的目的是充分利用多核CPU的优势,提高数据处理并行度。

处理步骤流程效果

意图:从文本文件中读取数据,增加一个常量列以后,在内存中按no分组统计记录条数,输出到文件
在这里插入图片描述

准备数据

在这里插入图片描述

步骤解析

首先在转换的主对象树下,新建分区schemas
在这里插入图片描述定义分区,分区ID有几个就有多少个分区,名字随便
在这里插入图片描述然后右键【在内存中分组】,选择【分区】->Remainder of divison->你的分区schema->Mode partitioner
在这里插入图片描述
Note: Remainder of divison 按分区分割数据,所有分区数据全局唯一。Mirror to all partitions 则是所有分区复制一份全量的数据。

为了保持每个分区在后续处理步骤都保持在一个泳道上,都要按上步配置相同的schema

输出文件记得勾上 带分区号。
在这里插入图片描述
然后运行即可。

执行结果

生成三个文件,一个分区一个文件
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值