一、抽取csv文件
CSV是Comma-Separated Values的缩写,即逗号分隔值。CSV文件是用逗号分隔数据字段的文件,因此也被称为逗号分隔值文件,有时会使用字符来替代逗号实现分隔,因此,也被称为字符分隔文件。CSV文件是以纯文本形式存储表格数据(数字和文本),纯文本意味着该文件是一个字符序列。CSV文件可通过Excel打开,也可以通过txt、Notepad++等文本编辑器打开,从而对文件进行查看、编辑等操作。 CSV文件是由任意数目的记录组成,记录之间以某种换行符分隔;每条记录由字段组成,字段之间的分隔符常见的有逗号或制表符。通常,整个文件中的所有记录都有完全相同的字段序列。
(1)CSV文件输入
(2) 获取字段的预览结果
(3)查看文件csv_extract.csv的数据是否抽取到CSV文件输入流中
(4)表输出 连接数据库
(5)获取目标表,即数据表csv;勾选“指定数据库字段”的复选框。
(5)将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。
(6)单击转换工作区顶部的 按钮,运行创建的csv_extract转换。
(7) 在CSV数据表查看结果
二、JSON转换
JSON(JavaScript Object Notation,即JS对象标记)是一种轻量级的数据交换格式,它是基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,从JavaScript脚本语言中演变而来的,采用完全独立于编程语言的文本格式来存储和表示数据。由于JSON有简洁、清晰的层次结构,因此使得JSON成为理想的数据交换语言。JSON易于程序开发者阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输的效率。
(1)双击“JSON input”控件,进入“JSON输入”界面。单击【浏览】按钮,选择要抽取的JSON文件json_extract.json;单击【增加】按钮,将所选择的文件添加到“选中的文件和目录”处。
(2)单击“字段”选项卡,添加要抽取的数据字段(这里采用分层抽取数据字段,先抽取id和data字段,再从data字段中抽取field和value字段)。
(3)双击“JSON input 2”控件,进入“JSON输入”界面。勾选“源定义在一个字段里?”的复选框;在“从字段获取源”处的下拉框中选择字段名,即data。
(4)单击“字段”选项卡;添加从字段data中抽取的field和value字段。
(5)表输出,连接数据库
(6) 映射匹配:将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。
(7)“表输出”控件配置的最终效果,具体如图所示。
(8) 单击转换工作区顶部的 按钮,运行创建的json_extract转换。
查看json数据表
摘自 黑马程序员《数据清洗技术》