最近由于工作涉及的OLTP系统升级ETL工具的原因,接触了kettle工具,由于没有做好基础工作,公司大牛给的关于kettle的资料《PDI构建开源ETL解决方案》,没有认真了解,导致使用起来步履维艰。
记录关联-笛卡尔输出
例:
按照旧ETL工具,需要将基础表A、表B、表C、表D,4张表的数据保存到本地数据库,然后,再通过SQL将4张表的数据关联到一张结果表,过程共产生5张表,严重浪费数据库资源,以及当产生问题,增加维护难度。现使用kettle工具后,将不再需要将基础表A、表B、表C、表D这4张表的数据保留到本地数据库,大大降低数据库的压力。
下图为合成流程图:
A、B、C、D的输出是没有问题的,就用表输入就好,但是,需要注意的是,当A、B、C、D4张表的关联关系中,有字段名字一样的情况下,建议各自改为能明显区分的字段名,(虽然,在记录关联(笛卡尔输出)中,条件选择中是按照关联表的顺序罗列字段名的,但是一旦字段数量过大,就很有可能让人眼花缭乱,所以建议设置明显的字段别名),下图为本列条件选择的字段列表:
很长吧,如果不特意标识,就需要一个一个字段寻找,所以设置别名很在一定程度上提高工作效率。