Hudi常用参数-写入操作相关参数配置

写入操作配置参数

  • hoodie.datasource.write.table.name
    指定写入的hudi表名。

  • hoodie.datasource.write.operation
    写hudi表指定的操作类型,当前支持upsert、delete、insert、bulk_insert等方式。
    •upsert:更新插入混合操作
    •delete:删除操作
    •insert:插入操作
    •bulk_insert: 用于初始建表导入数据, 注意初始建表禁止使用upsert、insert方式
    •insert_overwrite:对静态分区执行insert overwrite
    •insert_overwrite_table:动态分区执行insert overwrite,该操作并不会立刻删除全表做overwrite,会逻辑上重写hudi表的元数据,无用数据后续由hudi的clean机制清理。效率比bulk_insert + overwrite 高

  • hoodie.datasource.write.table.type
    指定hudi表类型,一旦这个表类型被指定,后续禁止修改该参数,可选值mor、cow

  • hoodie.datasource.write.precombine.field
    该值用于在写之前对具有相同的key的行进行合并去重。

  • hoodie.datasource.write.payload.class
    在更新过程中,该类用于提供方法将要更新的记录和更新的记录做合并,该实现可插拔,如要实现自己的合并逻辑,可自行编写。默认org.apache.hudi.common.model.DefaultHoodieRecordPayload

  • hoodie.datasource.write.recordkey.field
    用于指定hudi的主键,hudi表要求有唯一主键。

  • hoodie.datasource.write.partitionpath.field
    用于指定分区键,该值配合hoodie.datasource.write.keygenerator.class使用可以满足不同的分区场景。

  • hoodie.datasource.write.hive_style_partitioning
    用于指定分区方式是否和hive保持一致,建议该值设置为true。

  • hoodie.datasource.write.keygenerator.class
    配合hoodie.datasource.write.partitionpath.field,hoodie.datasource.write.recordkey.field产生主键和分区方式。
    说明:
    写入设置KeyGenerator与表保存的参数值不一致时将提示需要保持一致。默认为org.apache.hudi.keygen.ComplexKeyGenerator

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值