转换步骤使用分区

分区的目的是充分利用多核CPU的优势,提高数据处理并行度。

处理步骤流程效果

意图:从文本文件中读取数据,增加一个常量列以后,在内存中按no分组统计记录条数,输出到文件
在这里插入图片描述

准备数据

在这里插入图片描述

步骤解析

首先在转换的主对象树下,新建分区schemas
在这里插入图片描述定义分区,分区ID有几个就有多少个分区,名字随便
在这里插入图片描述然后右键【在内存中分组】,选择【分区】->Remainder of divison->你的分区schema->Mode partitioner
在这里插入图片描述
Note: Remainder of divison 按分区分割数据,所有分区数据全局唯一。Mirror to all partitions 则是所有分区复制一份全量的数据。

为了保持每个分区在后续处理步骤都保持在一个泳道上,都要按上步配置相同的schema

输出文件记得勾上 带分区号。
在这里插入图片描述
然后运行即可。

执行结果

生成三个文件,一个分区一个文件
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

发布了41 篇原创文章 · 获赞 0 · 访问量 814
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览