使用kettle工具抽取CSV文件和json文件

一、抽取csv文件

CSV是Comma-Separated Values的缩写,即逗号分隔值。CSV文件是用逗号分隔数据字段的文件,因此也被称为逗号分隔值文件,有时会使用字符来替代逗号实现分隔,因此,也被称为字符分隔文件。CSV文件是以纯文本形式存储表格数据(数字和文本),纯文本意味着该文件是一个字符序列。CSV文件可通过Excel打开,也可以通过txt、Notepad++等文本编辑器打开,从而对文件进行查看、编辑等操作。 CSV文件是由任意数目的记录组成,记录之间以某种换行符分隔;每条记录由字段组成,字段之间的分隔符常见的有逗号或制表符。通常,整个文件中的所有记录都有完全相同的字段序列。 

 

 

(1)CSV文件输入

 

(2) 获取字段的预览结果

 (3)查看文件csv_extract.csv的数据是否抽取到CSV文件输入流中

 

 

 

(4)表输出 连接数据库

 

 (5)获取目标表,即数据表csv;勾选“指定数据库字段”的复选框。

 

 

 (5)将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。

 

 

 (6)单击转换工作区顶部的     按钮,运行创建的csv_extract转换。 

 

(7) 在CSV数据表查看结果

 

二、JSON转换

JSON(JavaScript Object Notation,即JS对象标记)是一种轻量级的数据交换格式,它是基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,从JavaScript脚本语言中演变而来的,采用完全独立于编程语言的文本格式来存储和表示数据。由于JSON有简洁、清晰的层次结构,因此使得JSON成为理想的数据交换语言。JSON易于程序开发者阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输的效率。

 

(1)双击“JSON input”控件,进入“JSON输入”界面。单击【浏览】按钮,选择要抽取的JSON文件json_extract.json;单击【增加】按钮,将所选择的文件添加到“选中的文件和目录”处。

 

 (2)单击“字段”选项卡,添加要抽取的数据字段(这里采用分层抽取数据字段,先抽取id和data字段,再从data字段中抽取field和value字段)。

 

 (3)双击“JSON input 2”控件,进入“JSON输入”界面。勾选“源定义在一个字段里?”的复选框;在“从字段获取源”处的下拉框中选择字段名,即data。

 

 (4)单击“字段”选项卡;添加从字段data中抽取的field和value字段。

 

 (5)表输出,连接数据库

 

(6) 映射匹配:将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。

 

 (7)“表输出”控件配置的最终效果,具体如图所示。

 

 (8) 单击转换工作区顶部的     按钮,运行创建的json_extract转换。

 

 查看json数据表

 

 

摘自 黑马程序员《数据清洗技术》

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值