大数据hudi之集成flink:离线 Compaction

浊酒南街

于 2023-09-06 14:25:07 发布

阅读量294

点赞数 2

分类专栏： # Hudi 文章标签：大数据 flink

本文链接：https://blog.csdn.net/weixin_43597208/article/details/132712235

版权

Hudi 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

MOR 表的 compaction 默认是自动打开的，策略是 5 个 commits 执行一次压缩。因为压缩操作比较耗费内存，和写流程放在同一个 pipeline，在数据量比较大的时候（10w+/s qps），容易干扰写流程，此时采用离线定时任务的方式执行 compaction 任务更稳定。

设置参数

compaction.async.enabled 为 false，关闭在线 compaction。
compaction.schedule.enabled 仍然保持开启，由写任务阶段性触发压缩 plan。
Compaction过程

原理

一个 compaction 的任务的执行包括两部分：
schedule 压缩 plan
该过程推荐由写任务定时触发，写参数 compaction.schedule.enabled 默认开启
执行对应的压缩 plan

使用方式

1）执行命令
离线 compaction 需要手动执行 Java 程序，程序入口：
hudi-flink1.13-bundle-0.12.0.jar
org.apache.hudi.sink.compact.HoodieFlinkCompactor
// 命令行的方式

./bin/flink run -c org.apache.hudi.sink.compact.HoodieFlinkCompactor lib/hudi-flink1.13-bundle-0.12.0.jar --path hdfs://xxx:8020/table

2）参数配置

参数名	required	默认值	备注
path	true		目标表的路径
compaction-tasks	false	-1	压缩 task 的并发，默认是待压缩 file group 的数量
compaction-max-memory	false	100 （单位 MB）	压缩时 log 数据的索引 map，默认 100MB，内存足够可以开大些
schedule	false	false	是否要执行 schedule compaction 的操作，当写流程还在持续写入表数据的时候，开启这个参数有丢失查询数据的风险，所以开启该参数一定要保证当前没有任务往表里写数据, 写任务的 compaction plan 默认是一直 schedule 的，除非手动关闭（默认 5 个 commits 一次压缩）
seq	false	LIFO	执行压缩任务的顺序，默认是从最新的压缩 plan 开始执行，可选值：LIFO: 从最新的 plan 开始执行；FIFO: 从最老的 plan 开始执行
service	false	false	是否开启 service 模式，service 模式会打开常驻进程，一直监听压缩任务并提交到集群执行（从 0.11 开始执行）
min-compaction-interval-seconds	false	600 （单位秒）	service 模式下的执行间隔，默认 10 分钟

3）案例演示
（1）创建表，关闭在线压缩

create table t7(
  id int,
  ts int,
  primary key (id) not enforced
)
with (
  'connector' = 'hudi',
  'path' = '/tmp/hudi_catalog/default/t7',
  'compaction.async.enabled' = 'false',
  'compaction.schedule.enabled' = 'true',
  'table.type' = 'MERGE_ON_READ'
);


insert into t7 values(1,1);
insert into t7 values(2,2);
insert into t7 values(3,3);
insert into t7 values(4,4);
insert into t7 values(5,5);

// 命令行的方式

./bin/flink run -c org.apache.hudi.sink.compact.HoodieFlinkCompactor lib/hudi-flink1.13-bundle-0.12.0.jar --path hdfs://hadoop1:8020/tmp/hudi_catalog/default/t7

浊酒南街

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据hudi之集成flink:离线 Compaction

MOR 表的 compaction 默认是自动打开的，策略是 5 个 commits 执行一次压缩。因为压缩操作比较耗费内存，和写流程放在同一个 pipeline，在数据量比较大的时候（10w+/s qps），容易干扰写流程，此时采用离线定时任务的方式执行 compaction 任务更稳定。
复制链接

扫一扫