storm入门及简介

最新推荐文章于 2024-04-14 09:25:32 发布

火树银花之处

最新推荐文章于 2024-04-14 09:25:32 发布

阅读量412

点赞数

分类专栏： Storm 文章标签： storm

本文链接：https://blog.csdn.net/zcf1319/article/details/104613283

版权

Storm 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

storm入门及简介

1、storm是什么？

storm是一个开源的可以用于大量数据集的分布式实时数据计算引擎；

2、storm组成？

Nimbus：Storm集群主节点，负责资源分配和任务调度。我们提交任务和停止任务都是在Nimbus上操作的。一个Storm集群只有一个活跃Nimbus节点。
Supervisor：Storm集群工作节点，接受Nimbus分配任务，管理所有Worker。
zookeeper:负责集群协调，存放状态信息

3、为什么选择storm？

1、Storm注重容错和管理，Storm可以保证spout发出的每条消息都能被“完全处理”，如果发现一个元组还未处理,它会自动从Spout处重发，Storm 还实现了任务级的故障检测，在一个任务发生故障时，消息会自动重新分配以快速重新开始处理。Storm 包含比 Hadoop 更智能的处理管理,流程会由zookeeper来进行管理,以确保资源得到充分使用。

2、Storm的Topology只需初始化一次。在将Topology提交到Storm集群的时候,集群会针对该Topology做一次初始化的工作，此后,在Topology运行过程中,对于输入数据而言,是没有计算框架初始化耗时的,有效避免了计算框架初始化的时间损耗。

3、Storm使用Netty作为底层的消息队列来传递消息,保证消息能够得到快速的处理，同时Storm采用内存计算模式,无需借助文件存储,直接通过网络直传中间计算结果,避免了组件之间传输数据的大量时间损耗。

4、多语言支持，除了用java实现spout和bolt，你还可以使用任何你熟悉的编程语言来完成这项工作，这一切得益于Storm所谓的多语言协议。多语言协议是Storm内部的一种特殊协议,允许spout或者bolt使用标准输入和标准输出来进行消息传递，传递的消息为单行文本或者是json编码的多行。

5、支持水平扩展，在Storm集群中真正运行topology的主要有三个实体：工作进程、线程和任务。Storm集群中的每台机器上都可以运行多个工作进程，每个工作进程又可创建多个线程,每个线程可以执行多个任务,任务是真正进行数据处理的实体，我们开发的spout、bolt就是作为一个或者多个任务的方式执行的。因此，计算任务在多个线程，进程和服务器之间并行进行,支持灵活的水平扩展。

6、容错性强，如果在消息处理过程中出了一些异常，Storm会重新安排这个出问题的处理单元，Storm保证一个处理单元永远运行。

7、简单编程，Storm为大数据的实时计算提供了一些简单优美的原语，降低了开发并行实时处理的任务的复杂性，可快速、高效的开发应用。

8、本地模式，支持快速编程测试。

9、Storm集群异常的稳定。Nimbus和Supervisor之间的所有协调工作都是通过Zookeeper集群完成。另外，Nimbus进程和Supervisor进程都是快速失败(fail-fast)和无状态的｡所有的状态要么在zookeeper里面, 要么在本地磁盘上。你可以用kill -9来杀死Nimbus和Supervisor进程,然后再重启它们，就好像什么都没有发生过

4、storm编程模型