Streamsets简介:
Streamsets是由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立的公司,总部设在旧金山。streamsets产品是一个做大数据ETL的工具,支持包括结构化和半/非结构化数据源,拖拽式的可视化数据流程设计界面。而Streamsets旗下有如下三个产品: streamsets data collector(核心产品,开源):大数据ETL工具;streamsets data collector Edge(开源):将这个组件安装在物联网等设备上,占用少的内存和CPU;streamsets control hub(收费项目):可以将collector编辑好的pipeline放入control hub进行管理,可实现定时调度、管理和pipeline拓扑;
本文介绍streamsets data collector 集成在cloudera manager CDH6.3.2
首先准备四个文件
manifest.json
STREAMSETS-3.14.0.jar
STREAMSETS_DATACOLLECTOR-3.14.0-el7.parcel
STREAMSETS_DATACOLLECTOR-3.14.0-el7.parcel.sha
将以下文件放置在 /opt/cloudera/parcel-repo/ 下
manifest.json(可以不放置)
STREAMSETS_DATACOLLECTOR-3.14.0-el7.parcel
STREAMSETS_DATACOLLECTOR-3.14.0-el7.parcel.sha
将以下文件放置在 /opt/cloudera/csd 下
STREAMSETS-3.14.0.jar
在CM中集成:
添加服务
启动服务 默认账号密码 admin admin
安装完毕