ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
在2023年使用了一个ETL软件:spoon
该软件中我使用了两个功能,作业及转换,
举例说明一下:
一、 转换
由于在数据中经常存在上游信息及下游信息缺失问题,为了能更快捷的根据第三方提供的缺失信息进行补充,设置了这个转换程序。
第一步:通过入图所示,点击转换添加转换任务
第二步:通过核心对象添加,输入对象,我这次添加的是EXCEL表,左键拖拉到操作页面
第三步:单击左键,编辑步骤,如图所示编辑,一般能预览成功就说明设置的没有问题,具体情况具体分析。
第四步:
添加流程条件,编辑步骤筛选省份不为空
第五步:添加流程条件,编辑步骤筛选清洗条件
第六步:输出结果
第七步:按住shift键+鼠标左键,添加箭头;
第八步:保存并使用时运行如图按钮,点击启动即可执行。
二、作业
为了实现程序自动执行,定时执行规定的SQL,设置该程序
第一步:点击第一张图中的加号,添加作业
第二步:在核心对象中把开始组件:STREAT,编辑作业入口,设置定时规则
第三步:添加结束组件:成功给添加上去;
第三步:添加脚本组件:SQL
第四步:编辑SQL组件,添加执行的SQL;
第五步:按住shift键+鼠标左键,添加箭头;
第六步:保存并使用时运行如图按钮,点击启动即可执行。
后续如有新增再添加。