storm学习之一

最新推荐文章于 2019-02-11 22:07:25 发布

_bukesiyi

最新推荐文章于 2019-02-11 22:07:25 发布

阅读量166

点赞数

分类专栏： storm

本文链接：https://blog.csdn.net/yewakui2253/article/details/80183605

版权

storm 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

配置storm.yaml(文件如下配置）

storm.zookeeper.servers:
- "hadoop01"
- "hadoop02"

nimbus.host: "hadoop01"
nimbus.childopts: "-Xmx1024m"
ui.port: 8080
ui.childopts: "-Xmx768m"
supervisor.childopts: "-Xmx768m"
worker.childopts: "-Xmx768m"
supervisor.slots.ports:
- 6700
- 6701
- 6702
- 6703

nohup和&后台运行，进程查看及终止

用途：在后台运行

一般两个一起用

l 在nimbus.host所属的机器上启动 nimbus服务

cd /export/servers/storm/bin/

nohup ./storm nimbus &

l 在nimbus.host所属的机器上启动ui服务

cd /export/servers/storm/bin/

nohup ./storm ui &

l 在其它个点击上启动supervisor服务

cd /export/servers/storm/bin/

nohup ./storm supervisor &

Storm常用操作命令

l 提交任务命令格式：storm jar 【jar路径】【拓扑包名.拓扑类名】【拓扑名称】

bin/storm jar examples/storm-starter/storm-starter-topologies-0.9.6.jar storm.starter.WordCountTopology wordcount 不需要指定输入和输出

l 杀死任务命令格式：storm kill 【拓扑名称】 -w 10（执行kill命令时可以通过-w [等待秒数]指定拓扑停用以后的等待时间）

storm kill topology-name -w 10

l 停用任务命令格式：storm deactivte 【拓扑名称】

storm deactivte topology-name

启动后报错：Exception in thread "main" expected '<document start>', but found BlockMappingStart in 'reader', line 23, column 2: nimbus.host: "master"

查看报警信息标识是在nimbus的n上，经试验原来是这几个配置名称前需要加空格。即：

空格nimbus.host: "192.168.1.101"

空格storm.zookeeper.port: 2181

空格storm.local.dir: "home/hadoop/storm-0.9.1/data"

空格supervisor.slots.ports:

大家配置storm.yaml时一定要注意了。少一个空格竟然就启动不了，真是不可思议

解决方案是借鉴之前别人的博客出处https://www.cnblogs.com/blackze/p/5906476.html

三个worker相当于占用了三个jvm占用一个槽，占用一个端口号

28个excutor相当于起了28个线程

1、编程模型
DataSource：外部数据源
Spout：接受外部数据源的组件，将外部数据源转化成Storm内部的数据，以Tuple为基本的传输单元下发给Bolt
Bolt:接受Spout发送的数据，或上游的bolt的发送的数据。根据业务逻辑进行处理。发送给下一个Bolt或者是存储到某种介质上。介质可以是Redis可以是mysql，或者其他。
Tuple：Storm内部中数据传输的基本单元，里面封装了一个List对象，用来保存数据。
StreamGrouping:数据分组策略
7种：shuffleGrouping(Random函数),Non Grouping(Random函数),FieldGrouping(Hash取模)、Local or ShuffleGrouping 本地或随机，优先本地。

2、并发度
用户指定的一个任务，可以被多个线程执行，并发度的数量等于线程的数量。一个任务的多个线程，会被运行在多个Worker（JVM）上，有一种类似于平均算法的负载均衡策略。尽可能减少网络IO，和Hadoop中的MapReduce中的本地计算的道理一样。

3、架构
Nimbus：任务分配
Supervisor：接受任务，并启动worker。worker的数量根据端口号来的。
Worker:执行任务的具体组件（其实就是一个JVM）,可以执行两种类型的任务，Spout任务或者bolt任务。
Task：Task=线程=executor。一个Task属于一个Spout或者Bolt并发任务。
Zookeeper：保存任务分配的信息、心跳信息、元数据信息。

4、Worker与topology
一个worker只属于一个topology,每个worker中运行的task只能属于这个topology。反之，一个topology包含多个worker，其实就是这个topology运行在多个worker上。
一个topology要求的worker数量如果不被满足，集群在任务分配时，根据现有的worker先运行topology。如果当前集群中worker数量为0，那么最新提交的topology将只会被标识active，不会运行，只有当集群有了空闲资源之后，才会被运行。

_bukesiyi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
storm学习之一

配置storm.yaml(文件如下配置） storm.zookeeper.servers: - "hadoop01" - "hadoop02"nimbus.host: "hadoop01"nimbus.childopts: "-Xmx1024m"ui.port: 8080ui.childopts: "-Xmx768m"supervisor.childopts: "-Xmx768m&q
复制链接

扫一扫