kettle从入门到精通 第五十一课 ETL之kettle Avro input

想真正学习或者提升自己的ETL领域知识的朋友欢迎进群,一起学习,共同进步。关注我公众号,公众号后台加我微信入群,备注kettle。

1、我们在学习nifi的过程中有接触到Avro schema,当时我在想kettle应该也支持Avro,果不其然kettle也是支持Avro文件的读和写的。今天我们一起来学习下kettle中如何使用Avro input 读步骤。对Avro 不了解的,可以学习文章ETL工具-nifi干货系列 第四讲 Avro schema 序列化框架

欢迎关注我的微信公众号,第一时间获取最新消息。

打开spoon,拖拉Avro input和写日志步骤到画布,然后连线,如下图所示:

 2、双击Avro input 步骤进行配置,如下图所示:

Step name:自定义步骤名称

Source-Format:数据来源格式,有Avro file,JSON datum,Binary datum,Avro file(use alternate schema),本次演示采用Avro file

Avro file(Avro 文件)

源材料位于单个位置。模式嵌入在数据中。
JSON datum(JSON 数据)
源材料位于不同位置。数据以JSON格式包含,并且模式与数据分离。
Binary datum(二进制数据)
源材料位于不同位置。数据以二进制格式包含,并且模式与数据分离。
Avro文件(使用备用模式)
源材料位于不同位置。模式与数据分离。

Source-Source:

from file,通过浏览选择Avro 文件

from field,通过选择前置步骤的字段进行设置

 3、Avro fields,本选项卡主要是提取Avro 数据文件中的字段,点击Get fileds之后会自动填充,然后可以继续进行调整设置,如下图所示:

 Avro path (Avro type):Avro源的位置(及其格式类型)。

Indexed values:

Avro路径集合中要使用的索引键。您可以使用此字段进行映射或数组扩展,从而将数组或映射值扩展为返回多行数据。

要返回映射元素,请指定索引键。
要返回数组元素,请指定数组索引号,或者使用星号通配符 (*) 来返回数组的所有元素。
当此字段留空时,不会返回字段的数据。

Name:输入字段的名称。

Type:输入字段的类型,例如String或Date。

Format:输入字段的格式。

Pass through fields from previous step:

选择之后将字段从上一步传递到下一步,同时将当前步骤中的字段传递到下一步。

清除选择不将上一步字段传递到下一步。

Allow null values for missing paths or fields:

选择以使用null值替换传入数据中的缺失字段。
清除选择以不使用null值替换缺失字段。

4、Lookup fields

你可以使用查找字段选项卡创建变量,并将它们映射到特定字段,以在解码时用作对 Avro 结构的查找。

更多细节可以参考官网文档https://docs.hitachivantara.com/r/en-us/pentaho-data-integration-and-analytics/10.1.x/mk-95pdia003/pdi-transformation-steps/avro-input/options/lookup-fields-tab

  • 26
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值