KETTLE基础控件应用

基础控件操作

在windows平台运行spoon.bat
在Linux、Apple osx、solaris平台运行spoon.sh
转换:所有参数信息都存在前方传来的数据行里。
作业:通过手写或变量控制。
1、生成随机数:右键(改变开始复制的数量)>将设置随机生成数重复n次,即重复生成随机数。
2、计算器:计算并产生新列。
3、字段选择:选择输出字段,可改变字段格式类型。
4、过滤记录
5、空操作:不操作,但是可将数据合并(随机),无用数据的存储。
6、连接:记录关联(笛卡尔):将多数据集进行笛卡尔乘积;
记录集连接:将两个数据集进行关联关系。
7、自定义常量数据:自定义数据,主要用用于测试,生成不同数据。
8、生成记录:自定义数据,可生成多行相同数据。
9、获取系统信息
10、固定宽度文件输入
11、CUBE文件输入\输出:存放的cube文件为二进制,用cube输出读取。
12、值映射:值的匹配判断,输出目标值。
13、流查询:匹配查询。
字典数据完全加载到内存后,在内存中查询,速度快,占内存;只支持“等于”查询;若匹配上多条,只保留最后一条;若没有匹配上,新增字段值为null。字典key和要查询的value都是int,可选key and value are exectly one integer field,节省内存;use sorted list:当比较的字符串较长的,使用hash方式,节省内存。
14、剪切字符串:按位置拆分。
15、拆分字段:按标记符拆分。
16、列拆分成多行/多列合并成一列
17、分组:分组计算,且可将多行合并成一行。
18、ETL元数据注入
19、switch/case:根据条件,将一路分成多路执行。
20、根据JAVA表达式过滤记录:一路到多路。
21、检测空流:有数据则不通过,无则生成一个空行。
22、识别流的最后一行:通过一个字段,标识数据流的最后一行。
23、阻塞数据:除了最后一条,其他数据行都不能过去。
24、阻塞数据直到步骤都完成:阻塞流程直到指定步骤中的任务完成。需注意前方步骤不可依赖后方数据,以防死锁。
25、数据流优先排序:多个数据源指定合并顺序。
26、追加流:两个数据源,指定顺序合并。
27、终止:终止流程,输出自定义报错信息。
28、复制记录到结果:暂时保留在内存里的数据,供以后流程用。
29、设置变量
30、克隆行
31、延迟行:每行数据间等待一定的时间间隔。
32、单线程:单一线程运行(单一转换)。
33、替换null值:把null变成指定的值。
设置值为null:与上面的控件作用相反。
34、启动一个进程:启动本地程序。
35、运行SSH命令:启动远程机器上程序;本地与远程机都为linux,提前设置ssh-keygen。
36、写日志:在日志里记录需要的信息。
37、发送信息至系统日志
38、处理文件:文件的移动、删除、复制
39、发送邮件
40、模糊匹配:只支持单列查询,匹配相似度最大的字符串;自定义匹配的取值范围;支持的模糊匹配的算法:Jaro、Jaro Winkler、Levenshtein。
41、数据库查询:只返回一行;若有多行结果,a只返回第一行,b失败;对数据流里的每条记录都要做一次数据库查询,效率低;可加载所有数据到缓存中=表输入+流查询。
42、数据库连接:和单参数的表输入类似,但更灵活;可自定义参数位置;参数也可输出。字典表的所有字段无法全部输出,除非设置参数(表输入)。
43、调用存储过程:oracle存储过程需要带参数;支持in、out参数
44、HTTP客户端:使用GET方式提交请求,获得返回的页面内容,可从前面步骤获得URL、参数名、参数值。
45、HTTP POST:使用POST方式提交请求。获得返回的页面内容。Request entity field :保存文件名,可提交文件。
46、web服务查询:通过web service获取数据。
47、REST客户端:通过Restful获取数据。
48、记录集连接:两个记录集做左/右/内/外连接;若速度慢,调整为main step。
49、记录关联(笛卡尔输出):两个记录集做笛卡尔乘积;若速度慢,调整为main step。
50、排序合并:多路合并排序,多个排好序的数据流,再排序用于:①多份sort copy后的排序②集群的master节点,将多slave节点的排好序的数据再排序。
51、数据比较:通过标识字段,比较两个数据源数据的变化情况。标识字段的四种状态:new、identical、deleted、updated。
52、映射(子转换):指定子转换位置;传入命名参数和变量;传入输入列、接收输出列。
53、集群:一个分布式的运行环境,由一个主节点和多个子节点构成。主节点调度在子节点上处理不同的数据行,子节点把处理后的结果再提交给主节点。
54、注释
55、自动文档输出
56、插入/更新:将数据与库里的数据进行自定义匹配,然后更新新数据。
57、数据同步:基于比较的同步方式。根据一个flag字段执行相应的插入/更新/删除操作。常用同步方法:时间戳、比较、触发器、日志。
58、批量加载
59、数据检验:对前一步骤传递的字段进行检验。
60、数据采样:从N个元素中随机的抽取k个元素,其中N个无法确定;每个元素被选中的可能性都相等;使用R算法;使用相同的种子,每次采样的数据相同。
61、前后行查询:可以查询同一个字段,前N行或后N行数据;用于行间数据的计算和统计。
62、单变量统计:个数、最大值、最小值、平均值、中位数、标准差、百分比(插值)。
63、分区:把数据按照一定的规则,划分为多个数据块。
镜像分区:每个分区内的值都一样。
取模分区:指定一个整型字段,取余数。
分区数据写入多个库:需要数据库先建立集群。
分区数据写入多个文件:使用内部变量:${internal.step.partition.ID}作为文件名的一部分。
分区ID和集群ID须一致。
64、字符串操作(转义/反转义)
65、行转列:行表变宽表(反正规化),需事先按分组字段排序;列转行(正规化):多列宽表变多行窄表。
66、排序:去除重复记录(排重unique row):需事先排序
唯一行(哈希值):不需事先排序,速度快,占内存。
67、闭合距离:计算树状结构表中父子节点的距离。
68、字符串替换
69、将字段值设置为常量
70、将字段值设置为其他字段
71、数值范围
72、获取变量
73、XML连接:用了构造自定义XML字符串;通过XML Path 连接两个XML格式数据
①使用单参数的XML Path连接:
//orderHeader[@orderNumber=’?’]/orderHeaderComments
②指定一个字段,用该字段里的值替代Path里的问号。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值