kettle从入门到精通 第五十五课 ETL之kettle Excel输入

想真正学习或者提升自己的ETL领域知识的朋友欢迎进群,一起学习,共同进步。

1、 Excel输入,Microsoft Excel输入步骤的作用是从Microsoft Excel中读取数据,如下图所示:

1)Excel输入步骤从文件D:\data\测试数据.xlsx读取数据。

2)将数据通过写日志步骤打印出来。

2、Excel输入步骤-文件配置

 步骤名称:自定义

表格类型(引擎):

Excel 97-2003 XLS:这个引擎是JXL软件后端提供的默认向后兼容类型。
Excel 2007 XLSX(Apache POI):如果您选择这种电子表格类型,您可以读取所有已知的Excel文件类型。功能由Apache POI项目提供。
注意:如果您使用了受密码保护的工作表,您必须将电子表格类型(引擎)设置为Excel 2007 XLSX(Apache POI)。
Excel 2007 XLSX(Apache POI Streaming):这种电子表格类型允许您读取大型Excel文件。
Open Office ODS:通过选择这种类型,您可以使用ODFDOM引擎读取OpenOffice电子表格文件。

文件或目录:通过点击浏览按钮进行选择文件或者目录。

正则表达式:如果上方指定的是目录,这里指定一个正则表达式来匹配指定目录中的文件名。

正则表达式(排除):如果上方指定的是目录,这里指定一个正则表达式来排除指定目录中的文件名。

Password:当Excel文件设置密码保护时,请指定打开Excel文件所需的密码。 

选中的文件:上面点击增加按钮之后的文件会展示在这里,可以删除或者编辑。

从前面的步骤获取文件名:动态设置Excel文件名称。

3、Excel输入步骤-工作表配置,当文件选中之后可以点击获取工作表名称或者手动填写工作表名称也可以。

开始读数据的行号和列号(从0开始),这个根据文件的具体情况进行设置。

4、Excel输入步骤-内容配置。

 1)头部:在“sheet”选项卡中指定的工作表包含标题行需要跳过时,请选择此选项。

2)非空记录:在此步骤的输出中不希望出现空行,请选择此选项。

3)停在空记录:在空数据的地方停下来。

4)限制:在此步骤生成的记录数量上设置一个限制。当设置为零时,结果不受限制。

5)编码:指定要使用的文本文件编码。将此选项留空以使用默认系统编码。首次使用时,PDI会搜索您的系统以获取可用编码。要使用Unicode,请指定UTF-8或UTF-16。

5、Excel输入步骤-错误处理配置。

 严格类型:选择在读取时让PDI报告数据类型错误。

忽略错误:选择是否要在解析过程中忽略错误。这些行可以通过在警告文件目录、错误文件目录和失败行号文件目录中指定路径来转储到单独的文件中。取消选中此选项,以使具有错误的行在此步骤的输出中显示为NULL值。

跳过错误行:选择让PDI跳过包含错误的行。

警告文件目录:指定生成警告时放置警告的目录位置。生成的文件名称为<警告目录>/文件名.<日期_时间>.<警告扩展名>。

错误文件目录:指定发生错误时放置错误的目录位置。生成的文件名称为<errorfile_dir>/文件名.<日期_时间>.<errorfile_extension>。

失败的记录数文件目录:翻译:如果发生行解析错误,请指定放置错误的目录位置。生成的文件名称为<errorline dir>/filename.<date_time>.<errorline extension>。

6、Excel输入步骤-字段配置

 点击偶去来自头部数据的字段按钮进行设置字段。也就是Excel文件第一行的列名。

7、Excel输入步骤-其他输出配置。

自定义其他输出字段,然后这些字段会同文件内容一同输出,传递给后续步骤。 

  • 22
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Kettle(Pentaho Data Integration)是一款开源的 ETL 工具,可以用于数据抽取、转换和加载。下面是 Kettle入门精通的一些步骤: 1. 下载并安装 Kettle 可以从官方网站下载 Kettle,然后按照提示安装即可。 2. 创建一个新的转换(Transformation) 在 Kettle 中,转换是指将原始数据转换为目标数据的一系列操作。要创建一个新的转换,可以在菜单栏中选择“文件”→“新建”→“转换”。 3. 添加输入源(Input) 在转换中,需要指定输入源,可以从各种数据源(如文件、数据库、Web 服务等)中读取数据。在 Kettle 中,可以通过“输入”组件来定义输入源。选择“输入”组件,然后在“设置”选项卡中输入相应的信息。 4. 添加转换步骤(Step) 在转换中,可以添加多个步骤来对数据进行转换、清洗、过滤等操作。在 Kettle 中,可以通过拖拽组件来添加转换步骤。例如,可以添加“文本文件输出”步骤来输出转换后的数据。 5. 运行转换 完成转换设置后,可以点击工具栏上的“运行”按钮来运行转换。Kettle 会根据设置的步骤依次执行,直至转换完成。 6. 高级应用 除了基本的数据转换外,Kettle 还支持更高级的功能,如作业(Job)、参数化、脚本等。通过学习和掌握这些高级功能,可以更加灵活地使用 Kettle 解决数据处理问题。 以上是 Kettle入门精通的一些基础步骤,希望能对你有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值