StreamSets实战之路(二)-环境篇- StreamSets安装与配置

主要介绍StreamSets DC和StreamSets DC Edge的安装以及环境配置。

1.StreamSets DC安装与配置

StreamSets官方网站提供了多种安装方式,包括:手动解压Tarball包安装、通过RPM软件包安装、通过Cloudera Manager安装、通过Docker安装,除了这几种安装方式,还提供了在云服务商上安装或者在MapR集群上安装。当然,你可以安装包括所有阶段库的完整版本的Data Collector,或者,可以安装Data Collector的core版本以仅安装要使用的阶段库,core版本安装使Data Collector可以使用更少的磁盘空间。

(1)安装需求:

组件

最小化需求

硬件组件支持

CPU核数:2

内存:1GB

磁盘空间:6GB

文件打开数:32768

操作系统支持

Mac OS X

CentOS 6.x或7.x

Oracle Linux 6.x 或 7.x

Red Hat Enterprise Linux 6.x 或 7.x

Ubuntu 14.04 LTS 或 16.04 LTS

环境支持

Oracle Java 8

OpenJDK 8

软件支持

谷歌浏览器

火狐浏览器

Safari浏览器

*因为StreamSets DC是java语言开发的,因此java运行环境必须要安装与配置。

(2)设置系统的文件打开数:

Linux操作系默认文件打开数为1024,我们需要将文件的打开数设置为32768或者更大一些。

首先可以通过以下命令查看操作系统的文件打开数:

ulimit -n

文件打开数针对不同的操作系统有不同的配置方式,大家可以参照以下解决方案: https://access.redhat.com/solutions/61334。下面我们针对CentOS Linux做文件打开数的配置:

  • 切换至root用户,使用 ulimit –HSn 32768 命令修改(此时可利用 ulimit –n 查看,发现文件打开数为32768,但是这只能暂时修改,当退出时,文件打开数会变成默认值)
  • 修改配置文件 /etc/security/limits.conf,在文件后加上:

* soft nofile  32768
       * hard nofile  32768

1.1手动解压Tarball包安装

可以安装完整或者核心的Data Collector tarball并在所有受支持的操作系统上手动启动。

手动启动Data Collector时,Data Collector 将以运行启动命令时登录到命令提示符下的系统用户帐户身份运行。

(1)通过下面链接下载完整或核心的Data Collector tarball:

https://streamsets.com/products/dataops-platform/data-collector/download/。

(2)将使用以下命令压缩包解压到所需位置:

tar zxf streamsets-datacollector-all-3.15.0.tgz

解压后会看到下图展示的文件:

介绍几个重要的目录: 

bin目录:是Streamset DC运行脚本目录

etc目录:是Streamset DC默认的配置文件目录,包括系统配置、权限配置、邮件配置、日志配置等;

data目录:是Streamset DC默认的数据目录,用于存储你设计的数据流等;

log目录:是Streamset DC默认的日志目录,包括GC日志和系统日志;

libexec目录:是Streamset DC默认的运行时环境配置目录

streamsets-libs目录:是Streamset DC默认的系统自带组件的目录

user-libs目录:是Streamset DC放置用户自定义开发组件的目录

edge-binaries目录:是Streamset DC存放Streamsets DC Edge的各种类型的安装包。

(3)使用以下命令启动运行Data Collector:

bin/streamsets dc

或者,使用以下命令在后台运行Data Collector:

nohup bin/streamsets dc >/dev/null 2>&1 &

(4)要访问Data Collector UI,请在浏览器的地址栏中输入以下URL:

http://Ip:18630/

登录默认用户密码为:admin/admin。

 

提示:对于生产环境,请在启动Data Collector之前配置用于存储配置文件,数据文件,日志文件和资源文件的目录,以使它们位于$ SDC_DIST(压缩包的位置)和基本Data Collector运行时目录之外。

对于开发或测试环境,可以使用$ SDC_DIST运行时目录中的默认位置。当然,对于所有环境,建议大家都将配置文件,数据文件,日志文件和资源文件的目录设置到$ SDC_DIST目录之外的目录,并确保文件目录的读写权限。

在$ SDC_DIST运行时目录之外创建用于配置,数据,日志和资源文件的目录。

在$ SDC_DIST / libexec / sdc-env.sh文件中,将以下环境变量设置为新创建的目录:

SDC_CONF- 数据收集器配置目录。

SDC_DATA- 数据收集器目录,用于管道状态和配置信息。

SDC_LOG- 日志的数据收集器目录。

SDC_RESOURCES- 运行时资源文件的数据收集器目录。

将所有文件从$ SDC_DIST / etc复制到新创建的$ SDC_CONF目录。

1.2 RPM软件包安装

Data Collector RPM软件包安装主要是将其作为CentOS,Oracle Linux或Red Hat Enterprise Linux上的服务启动。

使用RPM软件包安装,Data Collector使用默认目录并作为默认系统用户和组运行。默认的系统用户和组名为sdc。如果计算机上不存在sdc用户和sdc组,则安装将为您创建用户和组,并为其分配下一个可用的用户ID和组ID。

提示:要为sdc用户和组使用特定的ID,请在安装前创建用户和组,并指定要使用的ID。例如,如果要在多台计算机上安装Data Collector,则可能要在安装之前创建系统用户和组,以确保用户ID和组ID在所有计算机上都一致。安装Data Collector作为服务安装时需要root特权。

(1)通过下面链接下载Data Collector RPM软件包:

https://streamsets.com/products/dataops-platform/data-collector/download/

请下载适用于您的操作系统的RPM软件包:

对于CentOS 6,Oracle Linux 6或Red Hat Enterprise Linux 6,请下载RPM EL6软件包。

对于CentOS 7,Oracle Linux 7或Red Hat Enterprise Linux 7,请下载RPM EL7软件包。

(2)使用以下命令将文件解压到所需位置:

tar xf streamsets-datacollector-<version>-<operating_system>-all-rpms.tar

例如,要在CentOS 7上解压缩版本3.15.0,请使用以下命令:

tar xf streamsets-datacollector-3.15.0-el7-all-rpms.tar

(3)使用以下命令安装完整的Data Collector RPM软件包:

yum localinstall streamsets*.rpm

(4)将Data Collector作为服务启动,请对您的操作系统使用所需的命令:

对于CentOS 6,Oracle Linux 6或Red Hat Enterprise Linux 6,请使用:

service sdc start

对于CentOS 7,Oracle Linux 7或Red Hat Enterprise Linux 7,请使用:

systemctl start sdc

(5)要访问Data Collector UI,请在浏览器的地址栏中输入以下URL:

http://Ip:18630/

登录默认用户密码为:admin/admin。

1.3 Docker安装

 Docker方式的安装比较简单,环境和默认配置已经在docker镜像中设置,当然安装前你的操作系统上已经安装了docker软件。

(1)可以用以下命令启动Streamset DC:

docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc

(2)启动过后,要访问Data Collector UI,请在浏览器的地址栏中输入以下URL:

http://Ip:18630/

登录默认用户密码为:admin/admin。

 

当然为了防止你在streamsets中配置数据流丢失,最好将数据文件映射到外部文件系统上:

首先在宿主机上创建一个目录:

mkdir -p /opt/streamset-datas

docker run --restart on-failure –v /opt/streamset-datas:/data -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc

想了解更多的docker安装信息,请参照:https://hub.docker.com/r/streamsets/datacollector/

 

2.StreamSets DC Edge安装与配置

Edge的安装官方也提供两种安装方式:手动解压缩包安装和docker安装。

Edge是一个轻量级的代理工具,因此占用非常少量的系统资源。使用Go语言开发现在支持操作系统包括:

Darwin AMD64

Linux AMD64,ARMv6,ARMv7和ARMv8

Windows AMD64

当然可以从SDC Edge开源代码在任何其他操作系统构建自己的程序包。详细请参阅:https://github.com/streamsets/datacollector-edge/blob/master/BUILD.md

你现在可以通过两种方式下载Edge压缩包:

从您安装的StreamSets DC UI界面中下载或从StreamSets DC安装的目录中的edge-binaries目录获取,当然您也可以从streamsets 官方网址下载(https://archives.streamsets.com/index.html)。

若是您要从StreamSets DC UI界面中下载的话,需要您创建一个Edge类型的数据流,例如下图:

 

2.1手动解压缩包安装

(1)解压下载或获取到的压缩包至相应目录,利用管理员身份使用以下命令将Edge安装到您的系统中:

bin/edge -service install

利用以下命令启动Edge:

bin/edge -service start

利用以下命令重启Edge:

bin/edge -service restart

利用以下命令关闭Edge:

bin/edge -service stop

利用以下命令查看Edge的运行状态:

bin/edge -service status

利用以下命令卸载Edge:

bin/edge -service uninstall

2.2 docker安装

 使用以下命令启动Edge:

docker run --publish 18633:18633 --name edge --rm streamsets/datacollector-edge

至于怎么设计edge数据流,怎么发布Edge数据流到响应的edge上,后续课程或给大家介绍到。

Streamsets实战之路正在更新中,尽情期待!!!

 

 

此文章为博主原创,转载请标明出处和原始链接,谢谢。

  • 6
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
StreamSets是一种开源的数据操作平台,用于构建、执行和监视数据流。要安装和配置StreamSets,可以按照以下步骤进行操作: 1. 下载StreamSets:可以在官方网站上下载最新版本StreamSets。选择适合您操作系统的版本,并将其下载到本地。 2. 安装StreamSets:解压下载的文件,并将其安装到您选择的目录中。例如,您可以将其解压到/opt目录下。 3. 配置StreamSets:打开解压后的StreamSets文件夹,并编辑配置文件。配置文件通常位于conf文件夹中,其中最重要的是sdc.properties和sdc-log4j.properties。您可以根据您的需求配置这些文件,例如指定日志文件的路径、端口号等。 4. 启动StreamSets:使用命令行进入StreamSets的安装目录,并运行启动脚本。例如,可以运行./streamsets dc启动StreamSets。 5. 访问StreamSets:一旦StreamSets成功启动,您可以通过在浏览器中输入http://localhost:18630来访问StreamSets的用户界面。请确保防火墙没有阻止该端口的访问。 6. 配置数据源和目标:在StreamSets的用户界面中,您可以通过添加、配置数据源和目标来定义您的数据流。可以根据您的需求选择不同的数据源和目标,例如MySQL、Hadoop等。 7. 构建数据流:使用StreamSets的可视化界面,您可以构建数据流。您可以将不同的数据源连接到不同的目标,定义数据的处理方式,并配置数据传输的频率等。 8. 运行数据流:一旦您构建好数据流,您可以选择运行它。StreamSets将根据您的配置从数据源中读取数据,并将其传输到目标中。您可以监视运行状态,查看数据处理的日志等。 总之,StreamSets的安装和配置包括下载、安装、编辑配置文件、启动和访问StreamSets、配置数据源和目标、构建和运行数据流等步骤。这些步骤可以帮助您开始使用StreamSets来处理和传输数据。
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值