ETL学习(6)

5.文件选择:

  • 过滤方式:

匹配文件名:根据文件名,过滤文件,支持使用通配符 *(代表一个或者多个字符)和 ?(代表一个字符),如果是 windows 操作系统,则不区分大小写,如果是 linux操作系统则区分大小写。

自定义规则:使用表达式过滤,当表达式值为 true 时,选择文件,否则文件被过      滤。表达式中可以引用以下变量:

fileName:文件名,字符串类型,不包含路径,但是包含扩展名;

filePath:文件完整的路径,字符串类型;

modifiedTime : 文 件 的 修 改 时 间 , 日 期 时 间 类 型(java.util.Date);

fileLength:文件大小,长整数(java.lang.Long);

举例

当自定义规则为 fileName.length()>10 && fileLength>0 将选择指定目录下所有文件名长度大于 10 且文件长度大于 0 的文件。

 

6.自动分表

 

   (1)功能概述:用于指定分表规则

   (2)选项说明:

  • 每 N 行自动分表:当向目的表数据插入 N 行数据后分表。分表的结构与原表相同,分表名称为原表名后加上编号后缀,如 TABLE_2,TABLE_3。
  • 起始表号:第一个分表的编号,可以直接指定或者由系统根据上次执行时的编号自动确定。
  • 自增列插入:如果表中有自增列,是否插入自增列的值,如果不选,则自增列的值由数据库自动生成,如果选择,使用输入数据填充自增列。
  • 如果表不存在则自动创建:如果目的表在数据源中不存在,则根据数据集的定义自动创建目的表。

 

7.文件切分

 

(1)功能概述:文件切分选项用于指定写入文件时,如何切分文件。

(2)选项说明:

  • 每写入N行分割文件
  • 按列值切分:根据指定列的值切分,每个值一个文件,文件命名模式为<原文件名_列值>,如 FileName_武汉.txt,FileName_上海.txt 等等依次类推。
  • 切分列:选择切分列。
  • 最大文件数:按列切分时,指定最大划分的文件个数,如果文件数超过指定值,则生成一个<原文件名_other>的文件用于保存其它数据。

 

8.流程运行统计

(1)功能概述:表中字段匹配对应的流程变量,从而在流程运行结束实时在用户的统计表中记录当前运行的流程该节点的详细的运行信息。

 

(2)选项说明:

  • 流程运行统计:选择统计,则该节点的部分信息会写入已默认写入到 DMETL 的变量中。
  • 字段名:指定统计表中字段与统计变量对应,从而在流程节点运行结束,该统计变量的值会作为该字段的输入
  • 值表达式:

选择与对应字段匹配的变量,目前 DMETL 的统计变量主要提供了一下变量:

executeId:流程当前执行 Id,可以作为统计表的主键

activityResult:流程节点运行结果

activityEndTime:流程节点运行结束时间

activityFlowId:流程 Id

activityFlowName:流程名

activityId:当前统计节点 Id

activityName:当前节点名

ativityErrorCount:错误条数

activityMessage:执行信息

activityProcessCount:转换节点处理条数

activityReadCount:数据源节点读取数据条数

activityInsertCount:数据目的插入条数

activityDeleteCount:数据目的删除条数

activityUpdateCount:数据目的更新条数

 

9. 数据读取

1>表/视图

    选项说明:

  • 多表读取:通过配置表过滤器,来读取多个表。表过滤支持多种过滤方式,
©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页