Kettle CSV File Input 中文

背景

由于前段时间在学习Kettle的相关知识,在网络上搜寻很久都没有收到有关Kettle的相关中文文档,在学习的过程中看英文文档花费了很多时间。现阶段刚好比较空闲,所以准备对Kettle的常用的组件进行尝试翻译,以供参考,有翻译不当之处,希望大家批评指正。
本文所提到的组件是Kettle 8.2的一些常用组件,希望对你有帮助。

1、CSV文件

在学习CSV文件输入步骤时,先介绍一下CSV文件。
CSV :逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。通常都是纯文本文件。

2、 CSV File Input 步骤

CSV File Input 输入步骤从csv文本文件中读取数据到PDI转换中,即Kettle的转换中。虽然这个步骤叫做“CSV文件输入”步骤,但是你也可以使用CSV文件输入步骤读取使用用其他列分隔符分隔的文本文件,例如“|”,Tab 和“;”作为列分隔的文件。
注意:
1、英文分号(;)是这个步骤的默认列分隔符
2、这个步骤的选项是文本文件输入步骤选项的子集,此步骤和文本文件输入步骤的区别如下:
①NIO文件读取——使用非阻塞是IO进行系统调用以加快文件的读取速率,仅限于读取本地文件,不支持VFS文件读取。
②并行运行——如果将此步骤配置为以多个副本(或集群模式)运行,并启用并行运行,则每个副本将读取单个文件的一个单独块。你可以将文件的读取分布到集群转换中的多个线程,甚至多个从节点。
③延迟转换——如果你正在从文件中读取许多字段,并且其中许多字段在转换中不会被操作,仅仅通过转换传递到其他文本文件或数据库中,延迟转换可以防止PDI对这些字段执行不必要的操作(例如将它们转换为字符串、日期或数字等对象)。
你可以在data-integration/samples/transformations 目录下找到一个简单的CSV文件输入转换的例子(CSV Input - Reading customer data.ktr)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值