主要介绍StreamSets-Executor类组件有哪些、分类、主要用途以及使用方法。
Executor类组件主要在收到事件时会触发任务。
Executor类组件主要包含以下:
ADLS Gen1 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen1中的文件或目录。
ADLS Gen2 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen2中的文件或目录。
Amazon S3 // 为指定的内容创建新的Amazon S3对象,复制存储桶中的对象,或将标签添加到现有的Amazon S3对象。
Databricks Job Launcher // 收到事件记录后启动指定的Databricks作业。
Databricks Query // 收到事件后在Databricks上运行Spark SQL查询。
Email // 在收到事件后向配置的收件人发送自定义电子邮件。
HDFS File Metadata // 收到事件后,更改文件元数据,创建空文件或删除HDFS或本地文件系统中的文件或目录。
Hive Query // 收到事件记录后运行用户定义的Hive或Impala查询。
JDBC Query // 收到事件记录后运行用户定义的SQL查询。
MapR FS File Metadata // 收到事件后,更改文件元数据,创建空文件或删除MapR FS中的文件或目录。
MapReduce // 收到事件记录后启动指定的MapReduce作业。
Pipeline Finisher // 收到事件记录后停止并将管道转换为Finished状态。
SFTP/FTP/FTPS Client // 从SFTP,FTP或FTPS服务器移动或删除文件。
Shell // 在接收到事件记录执行shell脚本。
Spark // 收到事件记录后启动指定的Spark应用程序。
使用方法:
该数据流实现当文件中的数据读完后或文件没有最新数据时,就将该数据流停止。
(1)首先可以创建一个数据流或使用我们第五节我创建好的数据流,这里我们通过复制数据流将第五节创建好的数据流复制一个出来:
(2)点击origin的目录插件,配置该插件产生事件
(3)从Executor组件框中将Pipeline Finisher拖拉到设计面板,并从processor组件框中将选择组件拖拽到面板,并在条件1中配置为${record:eventType() == 'no-more-data'},将条件1的输出连接到Pipeline Finisher,条件2的数据丢弃
(4)点击启动运行,会发现当数据读完时,数据流会自动停止。
Streamsets实战之路正在更新中,尽情期待!!!
此文章为博主原创,转载请标明出处和原始链接,谢谢。