Storm入门

最新推荐文章于 2024-04-14 09:25:32 发布

Steve_Monster

最新推荐文章于 2024-04-14 09:25:32 发布

阅读量202

点赞数

分类专栏：大数据 storm 文章标签： storm

本文链接：https://blog.csdn.net/z_beast/article/details/103422033

版权

大数据同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

storm

3 篇文章 0 订阅

订阅专栏

Storm入门

1. 简介

Apache Storm是一款免费且开源的分布式实时计算系统，Storm被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等，大数据实时处理解决方案（流计算）的应用日趋广泛，目前已是分布式技术领域最新爆发点，而Storm更是流计算技术中的佼佼者和主流。

2. 特点

编程简单：

开发人员只需要关注应用逻辑，而且跟Hadoop类似，Storm提供的编程原语也很简单

高性能，低延迟：

其数据为流式数据，不持久化数据，内存级计算，数据通过网络直传，通过内存直接计算。

分布式：

支持分布式计算。可以轻松应对数据量大，单机搞不定的场景
可扩展：

随着业务发展，数据量和计算量越来越大，系统可水平扩展
容错：

单个节点挂了不影响应用
可靠性：

保证每个消息至少能得到一次完整处理。任务失败时，它会负责从消息源重试消息。

注释：

在消耗资源相同的情况下，一般来说storm的延时低于mapreduce。但是吞吐也低于mapreduce。storm是典型的流计算系统，mapreduce是典型的批处理系统。

3. 组织架构

Nimbus：

即Storm的Master，负责资源分配和任务调度。一个Storm集群只有一个Nimbus。
Supervisor：

即Storm的Slave，负责接收Nimbus分配的任务，管理所有Worker，一个Supervisor节点中包含多个Worker进程。
Worker：

工作进程，每个工作进程中都有多个Task。
Task：

任务，在 Storm 集群中每个 Spout 和 Bolt 都由若干个任务（tasks）来执行。每个任务都与一个执行线程相对应。
Topology：

计算拓扑，Storm 的拓扑是对实时计算应用逻辑的封装，它的作用与 MapReduce 的任务（Job）很相似，区别在于 MapReduce 的一个 Job 在得到结果之后总会结束，而拓扑会一直在集群中运行，直到你手动去终止它。拓扑还可以理解成由一系列通过数据流（Stream Grouping）相互关联的 Spout 和 Bolt 组成的的拓扑结构。。
Spout：

数据源（Spout）是拓扑中数据流的来源。一般 Spout 会从一个外部的数据源读取元组然后将他们发送到拓扑中。根据需求的不同，Spout 既可以定义为可靠的数据源，也可以定义为不可靠的数据源。一个可靠的 Spout能够在它发送的元组处理失败时重新发送该元组，以确保所有的元组都能得到正确的处理；一个 Spout可以发送多个数据流。
Bolt：拓扑中所有的数据处理均是由 Bolt 完成的。通过数据过滤（filtering）、函数处理（functions）、聚合（aggregations）、联结（joins）、数据库交互等功能，Bolt 几乎能够完成任何一种数据处理需求。一个 Bolt 可以实现简单的数据流转换，而更复杂的数据流变换通常需要使用多个 Bolt 并通过多个步骤完成。
Stream grouping：为拓扑中的每个 Bolt 的确定输入数据流是定义一个拓扑的重要环节。数据流分组定义了 Bolt 的不同任务（tasks）中划分数据流的方式。在 Storm 中有八种内置的数据流分组方式。