Storm
文章平均质量分 83
yongjian_luo
这个作者很懒,什么都没留下…
展开
-
Storm基本概念<转>
Storm数据流模型的分析及讨论本文首先介绍了Storm的基本概念和数据流模型,然后结合一个典型应用场景来说明Storm支持Topology之间数据流订阅的必要性,最后对比了Storm与另一个流处理系统在数据流模型上的区别之处。Storm基本概念Storm是一个开源的实时计算系统,它提供了一系列的基本元素用于进行计算:Topology、Stream、Spout、Bolt等等。转载 2013-12-09 18:37:38 · 565 阅读 · 0 评论 -
关于Storm 中Topology的并发度的理解<转>
主要思想来源于storm的项目页面: https://github.com/nathanmarz/storm/wiki/Understanding-the-parallelism-of-a-Storm-topology其中加入了一些个人的理解,所以就把文章mark成原创了,实际上大部分还是人家的东西。其实翻译这个文章的人也挺多,我看了几个,总是感觉有点绕,所以干脆自己总结一下。目标是简单明转载 2014-09-24 19:29:30 · 489 阅读 · 0 评论 -
Storm 实现滑动窗口计数和TopN排序<转>
计算top N words的topology, 用于比如trending topics or trending images on Twitter. 实现了滑动窗口计数和TopN排序, 比较有意思, 具体分析一下代码 Topology 这是一个稍微复杂些的topology, 主要体现在使用不同的grouping方式, fieldsGroupin转载 2014-10-22 16:21:01 · 1004 阅读 · 0 评论 -
Storm源码分析<转>
http://www.cnblogs.com/fxjwind/category/455987.html转载 2014-10-24 13:54:47 · 431 阅读 · 0 评论 -
storm消息确认机制<转>
伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索 场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更 久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副泳镜去转载 2014-10-10 11:18:34 · 795 阅读 · 0 评论 -
【Storm总结-2】关于Storm 中Topology的并发度的理解<转>
主要思想来源于storm的项目页面: https://github.com/nathanmarz/storm/wiki/Understanding-the-parallelism-of-a-Storm-topology其中加入了一些个人的理解,所以就把文章mark成原创了,实际上大部分还是人家的东西。其实翻译这个文章的人也挺多,我看了几个,总是感觉有点绕,所以干脆自己总结一下。目标是简单明转载 2014-10-10 17:28:51 · 481 阅读 · 0 评论 -
IRichBolt和IBasicBolt对比<转>
作为storm的使用者,有两件事情要做以更好的利用storm的可靠性特征。 首先,在你生成一个新的tuple的时候要通知storm; 其次,完成处理一个tuple之后要通知storm。 这样storm就可以检测整个tuple树有没有完成处理,并且通知源spout处理结果。storm提供了一些简洁的api来做这些事情。由一个tuple产生一个新的tuple称为: anchoring。你发射一转载 2014-10-10 18:34:00 · 626 阅读 · 0 评论 -
storm的ack和fail<转>
为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪, 这里面涉及到ack/fail的处理, 如果一个tuple处理成功, 会调用spout的ack方法, 如果失败, 会调用fail方法. 而在处理tuple的每一个bolt都会通过OutputCollector来告知storm, 当前bolt处理是否成功. 为了了解OutputCollector的ack转载 2014-10-10 18:36:29 · 588 阅读 · 0 评论 -
Storm常见模式——分布式RPC<转>
分布式RPC(distributed RPC,DRPC)用于对Storm上大量的函数调用进行并行计算过程。对于每一次函数调用,Storm集群上运行的拓扑接收调用函数的参数信息作为输入流,并将计算结果作为输出流发射出去。DRPC本身算不上Storm的特性,它是通过Storm的基本元素:streams,spouts,bolts,topologies而衍生的一个模式。DRPC可以单独作为一个转载 2014-10-10 18:44:36 · 572 阅读 · 0 评论 -
在eclipse上面搭建Clojure开发运行环境<转>
首先,需要下载并安装一个用于java开发的eclipse。链接地址:eclipse下载 然后,将eclipse解压到自定义的路径,比如:d:\eclipse。 下面就有两种方法安装Clojure的eclipse插件Counterclockwise: 打开eclipse,点击菜单栏“help->Install New Software.转载 2014-11-12 15:09:55 · 1537 阅读 · 0 评论 -
Storm ack和fail机制再论<转>
之前对这个的理解有些问题,今天用到有仔细梳理了一遍,记录一下 首先开启storm tracker机制的前提是,1. 在spout emit tuple的时候,要加上第3个参数messageid 2. 在配置中acker数目至少为1 3. 在bolt emit的时候,要加上第二个参数anchor tuple,以保持tracker链路 流程,1.转载 2014-09-26 18:58:53 · 1130 阅读 · 0 评论 -
Storm 中acker的工作流程<转>
转自http://xumingming.sinaapp.com/410/twitter-storm-code-analysis-acker-merchanism/---------------------------概述我们知道storm一个很重要的特性是它能够保证你发出的每条消息都会被完整处理, 完整处理的意思是指:一个tuple被完全处理的意思是转载 2014-09-26 18:12:53 · 617 阅读 · 0 评论 -
流式处理框架Storm<转>
2.1 Storm基本概念在运行一个Storm任务之前,需要了解一些概念:TopologiesStreamsSpoutsBoltsStream groupingsReliabilityTasksWorkersConfigurationStorm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs,而在Storm上运行的是拓扑(转载 2013-08-15 11:53:27 · 967 阅读 · 0 评论 -
Storm常见模式——分布式RPC<转>
转自:http://www.cnblogs.com/panfeng412/archive/2012/07/02/storm-common-patterns-of-distributed-rpc.html本文翻译自:https://github.com/nathanmarz/storm/wiki/Distributed-RPC,作为学习Storm DRPC的资料,转载必须以超链接形式标明文章转载 2014-01-09 17:39:42 · 679 阅读 · 0 评论 -
Storm常见模式——TimeCacheMap<转>
转自:http://www.cnblogs.com/panfeng412/archive/2012/06/26/storm-common-patterns-of-timecachemap.htmlStorm中使用一种叫做TimeCacheMap的数据结构,用于在内存中保存近期活跃的对象,它的实现非常地高效,而且可以自动删除过期不再活跃的对象。TimeCacheMap使用多个桶bucke转载 2014-01-09 17:40:18 · 602 阅读 · 0 评论 -
Storm常见模式——批处理<转>
转自:http://www.cnblogs.com/panfeng412/archive/2012/06/19/storm-common-patterns-of-batching.htmlStorm对流数据进行实时处理时,一种常见场景是批量一起处理一定数量的tuple元组,而不是每接收一个tuple就立刻处理一个tuple,这样可能是性能的考虑,或者是具体业务的需要。例如,批量查询转载 2014-01-09 17:40:46 · 580 阅读 · 0 评论 -
Storm常见模式——求TOP N<转>
转自:http://www.cnblogs.com/panfeng412/archive/2012/06/16/storm-common-patterns-of-streaming-top-n.htmlStorm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算,它的特点是持续的在内存中按照某个统计指标(如出现次数)计算TOP N,然后每隔一定时间间隔输出实时计算后的转载 2014-01-09 17:41:19 · 682 阅读 · 0 评论 -
Storm集群安装部署步骤【详细版】<转>
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2012/11/30/how-to-install-and-deploy-storm-cluster.html本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实转载 2014-01-09 10:06:55 · 794 阅读 · 0 评论 -
Storm-源码分析- Component ,Executor ,Task之间关系<转>
Component包含Executor(threads)的个数 在StormBase中的num-executors, 这对应于你写topology代码时, 为每个component指定的并发数(通过setBolt和setSpout) Component和Task的对应关系, (storm-task-info) 默认你可以不指定task数, 那么task和executor为1转载 2014-01-23 10:23:17 · 692 阅读 · 0 评论 -
用monit监控系统关键进程<转>
monit是一款功能强大的系统状态、进程、文件、目录和设备的监控软件,用于*nix平台, 它可以自动重启那些已经挂掉的程序,非常适合监控系统关键的进程和资源,如:nginx、apache、mysql和cpu占有率等。而监控管理Python进程,常用的是supervisor,后续会另外撰文介绍。下面分别介绍monit的安装、配置和启动。安装在debian或ubuntu上安装m转载 2014-01-23 14:31:21 · 913 阅读 · 0 评论 -
【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 实时系统搭建<转>
一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@晨色星空J2EE也给了我很大帮助,这里也谢谢@晨色星空J2EE之前在弄这个的时候,跟转载 2014-01-16 11:16:35 · 1011 阅读 · 0 评论 -
Twitter Storm源代码分析之ZooKeeper中的目录结构<转>
转自:http://xumingming.sinaapp.com/466/twitter-storm-code-analysis-zookeeper-dirs/我们知道Twitter Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeeper上面写状态信息来分配任务,supervisor,task通过从zookeeper中读状态来领取任务,同时转载 2014-12-22 15:55:47 · 705 阅读 · 0 评论