Kettle CSV File Input 中文

最新推荐文章于 2024-07-08 09:11:16 发布

@子华

最新推荐文章于 2024-07-08 09:11:16 发布

阅读量962

点赞数

文章标签： Kettle ETL CSV FIle Input

背景

由于前段时间在学习Kettle的相关知识，在网络上搜寻很久都没有收到有关Kettle的相关中文文档，在学习的过程中看英文文档花费了很多时间。现阶段刚好比较空闲，所以准备对Kettle的常用的组件进行尝试翻译，以供参考，有翻译不当之处，希望大家批评指正。
本文所提到的组件是Kettle 8.2的一些常用组件，希望对你有帮助。

1、CSV文件

在学习CSV文件输入步骤时，先介绍一下CSV文件。
CSV ：逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。通常都是纯文本文件。

2、 CSV File Input 步骤

CSV File Input 输入步骤从csv文本文件中读取数据到PDI转换中，即Kettle的转换中。虽然这个步骤叫做“CSV文件输入”步骤，但是你也可以使用CSV文件输入步骤读取使用用其他列分隔符分隔的文本文件，例如“|”，Tab 和“;”作为列分隔的文件。
注意：
1、英文分号（;）是这个步骤的默认列分隔符
2、这个步骤的选项是文本文件输入步骤选项的子集，此步骤和文本文件输入步骤的区别如下：
①NIO文件读取——使用非阻塞是IO进行系统调用以加快文件的读取速率，仅限于读取本地文件，不支持VFS文件读取。
②并行运行——如果将此步骤配置为以多个副本(或集群模式)运行，并启用并行运行，则每个副本将读取单个文件的一个单独块。你可以将文件的读取分布到集群转换中的多个线程，甚至多个从节点。
③延迟转换——如果你正在从文件中读取许多字段，并且其中许多字段在转换中不会被操作，仅仅通过转换传递到其他文本文件或数据库中，延迟转换可以防止PDI对这些字段执行不必要的操作(例如将它们转换为字符串、日期或数字等对象)。
你可以在data-integration/samples/transformations 目录下找到一个简单的CSV文件输入转换的例子（CSV Input - Reading customer data.ktr）

最低0.47元/天解锁文章

@子华

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kettle CSV File Input 中文

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
复制链接

扫一扫