【数据仓库】kettle基础应用1——数据导入

1.表输入

这是最常用的输入方式之一,指从数据库的表格中获取指定数据进入输出流。
表输入
数据库连接 第一次连接的表要通过新建进行连接,已经建立的可以通过编辑重复修改,大部分数据库都有相关接口用于连接,需要提供数据库地址(本地的就是localhost)、数据库名(注意不是表格名)、端口、用户名、密码等,输入后可以先点击测试连接来确定连接情况。

获取SQL查询语句 点击后可以直接选择数据库中的表格,会自动生成取出该表格全部数据的SQL语句。
有特殊需求(比如只取出几行,比较抽取等)可以直接修改下框中的SQL语句进行处理。

从步骤插入数据 需要进行两个表联合查询时可以使用,比如表A抽出的某列是表B抽取数据的条件,可以在B的这个步骤里选择A的输入步骤,常应用于缓慢维度更新中作为增量更新的条件。

记录数量限制 默认0即全部抽出。


2.Excel输入

输入Excel格式的表格的数据至输出流。
在这里插入图片描述
表格类型(引擎) 指文件类型对应的Excel版本,直接看文件类型就可以对应上了。

文件或目录 指文件输入的路径,输入或通过 浏览 获取后要点击 添加 才能把路径添加到下方的 选中的文件 中。

从前面的步骤获取文件名 指通过前一步的比如 获取文件名 的工具获取了某文件夹内所有表格的文件的文件名作为输出流输出,再连接到这一步作为输入流时,可以选择这个选项直接获取。

完成 文件 选项卡的设置后进入 工作表 选项卡。
在这里插入图片描述
一般情况下直接选择 获取工作表名称 就可以获得文件夹下对应格式的表格文件。

完成 工作表 选项卡的设置后进入 字段 选项卡。
在这里插入图片描述
直接点击 获取来自头部数据的字段 就可以获得前面的工作表对应的头部作为输出流的列名。
三个选项卡必须全部配置完成,否则就会报错,无法继续执行。


3.文本文件输入

一种比较灵活的文件输入形式,csv和txt都可以用这个输入。(CSV也有自己的 csv输入 方式,这里不再多做介绍)
在这里插入图片描述文件或目录 指文件输入的路径,输入或通过 浏览 获取后要点击 添加 才能把路径添加到下方的 选中的文件 中。

从前面的步骤获取文件名 指通过前一步的比如 获取文件名 的工具获取了某文件夹内所有表格的文件的文件名作为输出流输出,再连接到这一步作为输入流时,可以选择这个选项直接获取。

完成 文件 选项卡的设置后进入 内容 选项卡。
在这里插入图片描述
文件类型 指输入的文件类型,常见的是csv和txt。

分隔符 指对每行数据进行拆分时进行分割标识的分隔符,csv默认是“,”,具体看输入数据来决定。

头部 指是否获取头部作为输出流列名,以及获取几行作为头部,取决于数据情况,一般是一行。

格式 指数据处理的系统,可选择的包括 【DOS、Unix、mixed】 ,常用的window和Linux都选择Unix。

编码方式 指文字编码方式,如常见的GBK、UTF-8等,如果是从其他主机获取的数据,不修改为匹配的编码格式有可能会报错。

记录数量限制 默认0即全部抽出。

4.自定义常量数据

直接设置数据库表格的表头同时添加信息,主要用于建立生成维一类,没有来源也不会轻易改动的表格。
在这里插入图片描述
这一选项卡直接设置表头和数据类型,至少填入 名称类型是否空串 会默认为否。
之后转向 数据 选项卡。
在这里插入图片描述
根据已经生成的表头直接填入对应数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值