KETTLE基础控件应用

最新推荐文章于 2024-01-27 11:59:18 发布

CLC鸿

最新推荐文章于 2024-01-27 11:59:18 发布

阅读量1.5k

点赞数

分类专栏： KETTLE 文章标签：大数据前端数据库数据挖掘

本文链接：https://blog.csdn.net/weixin_44310844/article/details/105547548

版权

KETTLE 专栏收录该内容

3 篇文章

订阅专栏

基础控件操作

在windows平台运行spoon.bat
在Linux、Apple osx、solaris平台运行spoon.sh
转换：所有参数信息都存在前方传来的数据行里。
作业：通过手写或变量控制。
1、生成随机数：右键（改变开始复制的数量）>将设置随机生成数重复n次，即重复生成随机数。
2、计算器：计算并产生新列。
3、字段选择：选择输出字段，可改变字段格式类型。
4、过滤记录
5、空操作：不操作，但是可将数据合并（随机），无用数据的存储。
6、连接：记录关联（笛卡尔）：将多数据集进行笛卡尔乘积；
记录集连接：将两个数据集进行关联关系。
7、自定义常量数据：自定义数据，主要用用于测试，生成不同数据。
8、生成记录：自定义数据，可生成多行相同数据。
9、获取系统信息
10、固定宽度文件输入
11、CUBE文件输入\输出：存放的cube文件为二进制，用cube输出读取。
12、值映射：值的匹配判断，输出目标值。
13、流查询：匹配查询。
字典数据完全加载到内存后，在内存中查询，速度快，占内存；只支持“等于”查询；若匹配上多条，只保留最后一条；若没有匹配上，新增字段值为null。字典key和要查询的value都是int，可选key and value are exectly one integer field，节省内存；use sorted list：当比较的字符串较长的，使用hash方式，节省内存。
14、剪切字符串：按位置拆分。
15、拆分字段：按标记符拆分。
16、列拆分成多行/多列合并成一列
17、分组：分组计算，且可将多行合并成一行。
18、ETL元数据注入
19、switch/case：根据条件，将一路分成多路执行。
20、根据JAVA表达式过滤记录：一路到多路。
21、检测空流：有数据则不通过，无则生成一个空行。
22、识别流的最后一行：通过一个字段，标识数据流的最后一行。
23、阻塞数据：除了最后一条，其他数据行都不能过去。
24、阻塞数据直到步骤都完成：阻塞流程直到指定步骤中的任务完成。需注意前方步骤不可依赖后方数据，以防死锁。
25、数据流优先排序：多个数据源指定合并顺序。
26、追加流：两个数据源，指定顺序合并。
27、终止：终止流程，输出自定义报错信息。
28、复制记录到结果：暂时保留在内存里的数据，供以后流程用。
29、设置变量
30、克隆行
31、延迟行：每行数据间等待一定的时间间隔。
32、单线程：单一线程运行（单一转换）。
33、替换null值：把null变成指定的值。
设置值为null：与上面的控件作用相反。
34、启动一个进程：启动本地程序。
35、运行SSH命令：启动远程机器上程序；本地与远程机都为linux，提前设置ssh-keygen。
36、写日志：在日志里记录需要的信息。
37、发送信息至系统日志
38、处理文件：文件的移动、删除、复制
39、发送邮件
40、模糊匹配：只支持单列查询，匹配相似度最大的字符串；自定义匹配的取值范围；支持的模糊匹配的算法：Jaro、Jaro Winkler、Levenshtein。
41、数据库查询：只返回一行；若有多行结果，a只返回第一行，b失败；对数据流里的每条记录都要做一次数据库查询，效率低；可加载所有数据到缓存中=表输入+流查询。
42、数据库连接：和单参数的表输入类似，但更灵活；可自定义参数位置；参数也可输出。字典表的所有字段无法全部输出，除非设置参数（表输入）。
43、调用存储过程：oracle存储过程需要带参数；支持in、out参数
44、HTTP客户端：使用GET方式提交请求，获得返回的页面内容，可从前面步骤获得URL、参数名、参数值。
45、HTTP POST：使用POST方式提交请求。获得返回的页面内容。Request entity field ：保存文件名，可提交文件。
46、web服务查询：通过web service获取数据。
47、REST客户端：通过Restful获取数据。
48、记录集连接：两个记录集做左/右/内/外连接；若速度慢，调整为main step。
49、记录关联（笛卡尔输出）：两个记录集做笛卡尔乘积；若速度慢，调整为main step。
50、排序合并：多路合并排序，多个排好序的数据流，再排序用于：①多份sort copy后的排序②集群的master节点，将多slave节点的排好序的数据再排序。
51、数据比较：通过标识字段，比较两个数据源数据的变化情况。标识字段的四种状态：new、identical、deleted、updated。
52、映射（子转换）：指定子转换位置；传入命名参数和变量；传入输入列、接收输出列。
53、集群：一个分布式的运行环境，由一个主节点和多个子节点构成。主节点调度在子节点上处理不同的数据行，子节点把处理后的结果再提交给主节点。
54、注释
55、自动文档输出
56、插入/更新：将数据与库里的数据进行自定义匹配，然后更新新数据。
57、数据同步：基于比较的同步方式。根据一个flag字段执行相应的插入/更新/删除操作。常用同步方法：时间戳、比较、触发器、日志。
58、批量加载
59、数据检验：对前一步骤传递的字段进行检验。
60、数据采样：从N个元素中随机的抽取k个元素，其中N个无法确定；每个元素被选中的可能性都相等；使用R算法；使用相同的种子，每次采样的数据相同。
61、前后行查询：可以查询同一个字段，前N行或后N行数据；用于行间数据的计算和统计。
62、单变量统计：个数、最大值、最小值、平均值、中位数、标准差、百分比（插值）。
63、分区：把数据按照一定的规则，划分为多个数据块。
镜像分区：每个分区内的值都一样。
取模分区：指定一个整型字段，取余数。
分区数据写入多个库：需要数据库先建立集群。
分区数据写入多个文件：使用内部变量：${internal.step.partition.ID}作为文件名的一部分。
分区ID和集群ID须一致。
64、字符串操作（转义/反转义）
65、行转列：行表变宽表（反正规化），需事先按分组字段排序；列转行（正规化）：多列宽表变多行窄表。
66、排序：去除重复记录（排重unique row）：需事先排序
唯一行（哈希值）：不需事先排序，速度快，占内存。
67、闭合距离：计算树状结构表中父子节点的距离。
68、字符串替换
69、将字段值设置为常量
70、将字段值设置为其他字段
71、数值范围
72、获取变量
73、XML连接：用了构造自定义XML字符串；通过XML Path 连接两个XML格式数据
①使用单参数的XML Path连接：
//orderHeader[@orderNumber=’?’]/orderHeaderComments
②指定一个字段，用该字段里的值替代Path里的问号。