1. 下载信息
- 源码:Apache Hudi 0.6.0 Source Release (asc, sha512)
- 二进制Jar包:nexus
2. 迁移指南
- 如果您从0.5.3以前的版本迁移至0.6.0,请仔细核对每个版本的迁移指南;
- 0.6.0版本从基于list的rollback策略变更为了基于marker文件的rollback策略,为进行平稳迁移,会在
hoodie.properties
文件中配置一个新属性hoodie.table.version
;无论何时使用Hudi表新版本,如1(从0.6.0以前迁移到0.6.0),将会自动进行升级,并且只会对Hudi表升级一次,升级后hoodie.table.version
属性将会自动更新。 - 类似也提供了一个降级命令行工具(-downgrade),如用户想从0.6.0版本回退到之前的版本,此时
hoodie.table.version
将会从1变为0。 - 如果你在
bulkInsert()
RDD API中使用了自定义partitioner,注意0.6.0版本中该接口变为了BulkInsertPartitioner
,需要对你的实现做适配。
3. 重点特性
3.1 写入端改进
- 对已有Parquet表进行迁移:支持通过Spark Datasource/DeltaStreamer引导已存在的Parquet表迁移至Hudi,同时可通过Hive,Spar