StreamSets

reamsets-datacollector-all-3.21.0 安装步骤

1.安装jdk8

jdk安装网上教程很多,在这就不详细记录了

2.下载 streamsets

官网 https://archives.streamsets.com/index.html 注册账户后

下载 Full Tarball Tarball for Linux (Tarball sha1)

Linux wget下载证书报错末尾加上–no-check-certificate

在下载的过程中 我们可以创建几个能用到的文件夹

mkdir /data/streamsets/data

mkdir /data/streamsets/log 存放log的地方

mkdir /data/streamsets/resources

3.下载完成后解压

cd /opt/streamsets-datacollector-3.21.0/

tar zxf streamsets-datacollector-all-3.21.0.tgz

4.配置
1)配置环境变量

切换root用户

vi /etc/profile

在文件最后添加

export SDC_DIST=/opt/streamsets-datacollector-3.21.0

export SDC_JAVA_OPTS="${SDC_JAVA_OPTS} -Xmx10240m -Xms10240m -server" 这个加不加都行

保持退出

wq

应用环境变量

source /etc/profile

测试环境变量

echo $SDC_DIST

2)配置strameset环境

cd /opt/streamsets-datacollector-3.21.0/libexec/

vim sdc-env.sh

这块改下 jvm 看需求改 改不改都行

img

在就是添加

export SDC_DATA=/data/streamsets/data

export SDC_LOG=/data/streamsets/log

export SDC_RESOURCES=/data/streamsets/resources

img

3)配置 sdc.properties

cd /opt/streamsets-datacollector-3.21.0/etc

在这个配置文件里主要配置这几项

production.maxBatchSize 一次抽取数量 (按照自身需求和硬件配置来调整)

runner.thread.pool.size 一次可以开多少个线程,换句话说就是能开几个pipeline 如果你需要的抽取的表比较多 建议多开启 要不会报错

其他的 暂时都不用动,如果有需求可以去官网看看

4)如果需要kafka hbase等 需要配置hosts文件
5)如果需要使用mysql数据库的话

需要开启mysql binlog

6)目录配置

bin目录:是Streamset DC运行脚本目录

etc目录:是Streamset DC默认的配置文件目录,包括系统配置、权限配置、邮件配置、日志配置等;

data目录:是Streamset DC默认的数据目录,用于存储你设计的数据流等;

log目录:是Streamset DC默认的日志目录,包括GC日志和系统日志;

libexec目录:是Streamset DC默认的运行时环境配置目录

streamsets-libs目录:是Streamset DC默认的系统自带组件的目录

user-libs目录:是Streamset DC放置用户自定义开发组件的目录

edge-binaries目录:是Streamset DC存放Streamsets DC Edge的各种类型的安装包。

本科计算机bi-ye-she-ji辅导,远程安装运行+部署,欢迎各位小伙伴打扰~企鹅号:298-150-5753

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
StreamSets是一款开源的数据流管道解决方案,适用于实时数据处理和ETL(Extract, Transform, Load)任务。它提供了一个可视化界面,使用户能够轻松地创建、管理和监控数据流管道。 StreamSets具有很多功能和优势。首先,它支持各种数据来源和目标,包括关系数据库、文件系统、消息队列等等,使用户能够方便地从各种数据源中获取数据并将其发送到目标位置。 其次,StreamSets提供了强大的数据转换和处理功能。用户可以使用内置的转换器和处理器来执行各种操作,如数据清洗、格式转换、过滤等等。此外,StreamSets还支持自定义转换器和处理器,以满足用户的特定需求。 另外,StreamSets具有很强的实时性能。它能够以非常低的延迟处理大量的数据,并且支持容错和高可用性,确保数据流管道的稳定和可靠性。 在使用StreamSets时,用户可以通过可视化界面轻松地创建和配置数据流管道。它提供了丰富的图形化组件和工具,使用户能够直观地理解和管理数据流。此外,StreamSets还提供了实时的监控和报警功能,用户可以随时了解管道的状态和性能。 总而言之,StreamSets是一款功能强大且易于使用的数据流管道解决方案。它能够帮助用户处理实时数据并实现ETL任务,提高数据处理的效率和可靠性。无论是在大数据领域还是传统数据处理领域,StreamSets都是一个值得考虑和尝试的工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值