- 博客(9)
- 资源 (1)
- 收藏
- 关注
转载 Twitter开源大数据实时分析系统Heron:Heron架构
Heron架构Heron是Apache Storm的一个直接继承者。从架构角度来看,它与Storm截然不同,但是从API的角度看它是完全向后兼容的。 下面的章节指明了Heron和Storm的区别,描述了Heron背后的设计目标,并解释了其架构的主要组件。代码库Heron代码库的详细指南在这里。拓扑你可以认为一个Heron集群是一种管理流式处理实体(称作拓
2016-05-27 11:34:53 1001
转载 Twitter Heron的深入解析(与Storm的比较)
2015年6月1号, Twitter 对外宣讲了他们的Heron系统, 从ppt和论文中,看起来完爆storm。昨天,抽空把论文,仔细读了一遍, 把个人笔记和心得分享一下:最后总结:Heron更适合超大规模的机器, 超过1000台机器以上的集群。 在稳定性上有更优异的表现, 在性能上,表现一般甚至稍弱一些,在资源使用上,可以和其他编程框架共享集群资源,但topology级别会更浪费
2016-05-27 11:10:35 1525
转载 新一代大数据处理引擎 Apache Flink
大数据计算引擎的发展这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。在国外一些社区,有很多人将大数据的计算
2016-05-12 17:27:41 3749 1
转载 Flink中的一些核心概念
在源码解读前我们有必要先了解一下Flink的一些基本的但却很关键的概念。这有助于帮助我们理解整个架构。在翻译文档的同时,对于有争议的或者不是非常适合用中文表达的地方,我尽量保留原始英文单词。程序和数据流Flink程序的基本构建块是streams和transformations(注意,DataSet在内部也是一个stream)。一个stream可以看成一个中间结果,而一个tran
2016-05-12 17:25:36 3312
转载 流式统计的几个难点
流式统计听着挺容易的一个事情,说到底不就是数数嘛,每个告警系统里基本上都有一个简单的流式统计模块。但是当时基于storm做的时候,这几个问题还是困扰了我很长时间的。没有用过spark streaming/flink,不知道下面这些问题在spark streaming/flink里是不是都已经解决得很好了。时间窗口切分问题做流式统计首要的问题是把一个时间窗口内的数据统计到一起。问题是
2016-05-11 15:21:46 5270
转载 基于HBase的消息队列 HQueue
1. HQueue简介HQueue是一淘搜索网页抓取离线系统团队基于HBase开发的一套分布式、持久化消息队列。它利用HTable存储消息数据,借助HBase Coprocessor将原始的KeyValue数据封装成消息数据格式进行存储,并基于HBase Client API封装了HQueue Client API用于消息存取。HQueue可以有效使用在需要存储时间序列数据、作
2016-05-04 11:25:36 1636
转载 Spark Streaming介绍与基本执行过程
Spark Streaming作为Spark上的四大子框架之一,肩负着实时流计算的重大责任 而相对于另外一个当下十分流行的实时流计算处理框架Storm,Spark Streaming有何优点?又有何不足呢? 首先,对于Storm实时流处理惊人的低延迟性,Spark Streaming的不足很明显 Storm官方说的最低延迟可以使多少毫秒级别的 而Spark Streaming只能做
2016-05-03 19:24:59 2647
转载 Spark工作机制
一、应用执行机制一个应用的生命周期即,用户提交自定义的作业之后,Spark框架进行处理的一系列过程。在这个过程中,不同的时间段里,应用会被拆分为不同的形态来执行。1、应用执行过程中的基本组件和形态Driver: 运行在客户端或者集群中,执行Application的main方法并创建SparkContext,调控整个应用的执行。Application:
2016-05-03 19:21:46 898
转载 dstat的使用
1. 下载&安装Contos和Redhat的下载链接:http://pkgs.repoforge.org/dstat/安装很简单,如下:2. 使用说明安装完后就可以使用了,dstat非常强大,可以实时的监控cpu、磁盘、网络、IO、内存等使用情况。直接使用dstat,默认使用的是-cdngy参数,分别显
2016-05-03 14:53:22 309
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人