StreamSets实战之路(九)-基础篇- StreamSets-Executor类组件使用

主要介绍StreamSets-Executor类组件有哪些、分类、主要用途以及使用方法。

    Executor类组件主要在收到事件时会触发任务。

Executor类组件主要包含以下:

ADLS Gen1 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen1中的文件或目录。

ADLS Gen2 File Metadata // 收到事件后,更改文件元数据,创建一个空文件或删除Azure Data Lake Storage Gen2中的文件或目录。

Amazon S3 // 为指定的内容创建新的Amazon S3对象,复制存储桶中的对象,或将标签添加到现有的Amazon S3对象。

Databricks Job Launcher // 收到事件记录后启动指定的Databricks作业。

Databricks Query // 收到事件后在Databricks上运行Spark SQL查询。

Email // 在收到事件后向配置的收件人发送自定义电子邮件。

HDFS File Metadata // 收到事件后,更改文件元数据,创建空文件或删除HDFS或本地文件系统中的文件或目录。

Hive Query // 收到事件记录后运行用户定义的Hive或Impala查询。

JDBC Query // 收到事件记录后运行用户定义的SQL查询。

MapR FS File Metadata // 收到事件后,更改文件元数据,创建空文件或删除MapR FS中的文件或目录。

MapReduce // 收到事件记录后启动指定的MapReduce作业。

Pipeline Finisher // 收到事件记录后停止并将管道转换为Finished状态。

SFTP/FTP/FTPS Client // 从SFTP,FTP或FTPS服务器移动或删除文件。

Shell // 在接收到事件记录执行shell脚本。

Spark // 收到事件记录后启动指定的Spark应用程序。

  

使用方法:

该数据流实现当文件中的数据读完后或文件没有最新数据时,就将该数据流停止。

(1)首先可以创建一个数据流或使用我们第五节我创建好的数据流,这里我们通过复制数据流将第五节创建好的数据流复制一个出来:

(2)点击origin的目录插件,配置该插件产生事件

 

(3)从Executor组件框中将Pipeline Finisher拖拉到设计面板,并从processor组件框中将选择组件拖拽到面板,并在条件1中配置为${record:eventType() == 'no-more-data'},将条件1的输出连接到Pipeline Finisher,条件2的数据丢弃

 

 

(4)点击启动运行,会发现当数据读完时,数据流会自动停止。

 

Streamsets实战之路正在更新中,尽情期待!!!

 

此文章为博主原创,转载请标明出处和原始链接,谢谢。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值