1 迟来的更新
首先,抱歉这么久没有更新博客了。最近一直失眠中,脑子一直很乱,各种事情又非常多,还请大家体谅。就这么莫名发了一天呆,本来想写点代码,打开电脑,却怎么也提不起任何心去思考;想要躺着睡觉,却头疼的要命。刚好手头上有前几天总结的文章,就顺势粘贴拷贝上来了。
内容主要是实时计算框架Storm相关,为了更好的用户体验,所以开始调研云计算方面的知识,刚好以前没有研究学习过,所以也总结在这里,伴随着一起成长吧!
2 实时计算框架Storm简介
Storm是一个分布式计算框架,主要由Clojure编程语言编写。最初是由Nathan Marz[1]及其团队创建于BackType,[2]该项目在被Twitter取得后开源。[3]它使用用户创建的“管(spouts)”和“螺栓(bolts)”来定义信息源和操作来允许批量、分布式处理流式数据。最初的版本发布于2011年9月17日。
Storm应用被设计成为一个拓扑结构,其接口创建一个转换“流”。它提供与MapReduce作业类似的功能,当遇到异常时该拓扑结构理论上将不确定地运行,直到它被手动终止。
2013年,Apache软件基金会将Storm纳入它的孵化计划。当前最新版本是0.9.3,相关链接:https://storm.apache.org/。
2.1 基本构成
Storm框架的核心主要由7部分组成。
Topology:一个实时应用的计算任务被打包作为Topology发布,这同Hadoop的MapReduce任务相似。
Spout:Storm中的消息源,用于为Topology生产消息(数据),一般是从外部数据源(如Message Queue、RDBMS、NoSQL、Realtime Log)不间断地读取数据并发送给Topology消息(tuple元组)。
Bolt:Storm中的消息处理者,用于为Topology进行消息的处理,Bolt可以执行过滤,聚合, 查询数据库等操作,而且可以一级一级的进行处理。
Stream:产生的数据(tuple元组)。
Stream grouping:在Bolt任务中定义的Stream进行区分。
Task:每个Spout或者Bolt在集群执行许多任务。
Worker:Topology跨一个或多个Worker节点的进程执行。
2.2 相关依赖
2.2.1 集群ZooKeeper
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
Storm使用ZooKeeper来协调集群。
2.2.2 消息队列ZeroMQ和JZMQ
ZMQ(以下ZeroMQ简称ZMQ)是一个简单好用的传输层,像框架一样的一个socket library,他使得Socket编程更加简单、简洁和性能更高。是一个消息处理队列库,可在多个线程、内核和主机盒之间弹性伸缩。ZMQ的明确目标是“成为标准网络协议栈的一部分,之后进入Linux内核”。现在还未看到它们的成功。但是,它无疑是极具前景的、并且是人们更加需要的“传统”BSD套接字之上的一层封装。ZMQ让编写高性能网络应用程序极为简单和有趣。
JZMQ是对ZMQ的Java绑定。
2.2.3 消息队列Netty
Netty是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。
也就是说,Netty 是一个基于NIO的客户,服务器端编程框架,使用Netty 可以确保你快速和简单的开发出一个网络应用,例如实现了某种协议的客户,服务端应用。Netty相当简化和流线化了网络应用的编程开发过程,例如,TCP和UDP的socket服务开发。
Storm使用Netty和ZeroMQ两种消息传递机制,默认是ZeroMQ。
2.2.4 项目管理工具Maven
Maven是基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。
Maven 除了以程序构建能力为特色之外,还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性,所以常常用两三行 Maven 构建脚本就可以构建简单的项目。
使用Maven对要提交到Storm执行的程序进行打包。
2.2.5 其他
JDK,需要安装JDK