排序:
默认
按更新时间
按访问量

Kafka Offset Storage

1.概述  目前,Kafka 官网最新版[0.10.1.1],已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实,早在 0.8.2.2 版本,已支持存入消费的 offset 到Topic中,只是那时候默认是将消费的 offset...

2018-04-10 19:14:34

阅读数:162

评论数:0

AWK与SHELL之间的变量传递方法

我认为在linux下awk是个好东东啊,处理一些文本文件会非常方便。而在Linux下嘛,经常会和shell打交道,所以awk和shell之间的变量相互传递,有时还是很有必要的,所以简单总结一下吧。 awk中使用shell中的变量一: "'$var'"这种写法大家...

2018-04-10 17:27:21

阅读数:201

评论数:0

Spark Streaming 流计算优化记录(1)-背景介绍

1.背景概述业务上有一定的需求, 希望能实时地对从中间件进来的数据已经已有的维度表进行inner join, 以便后续的统计. 维表十分巨大, 有近3千万记录,约3G数据, 而集群的资源也较紧张, 因此希望尽可能压榨Spark Streaming的性能和吞吐量.技术架构大致上如下述: 数据从Kaf...

2018-04-04 17:55:15

阅读数:157

评论数:0

Spark Streaming 流计算优化记录(2)-不同时间片数据流的Join

1. 不同时间片数据流的Join         初体验之后, 看了一下Spark WebUi 的日志, 发现由于Spark Streaming需要每秒跑一次, 以实时计算数据, 所以程序不得不每秒都读一次HDFS去获取数据进行inner join.         本来SparkStreamin...

2018-04-04 17:54:26

阅读数:232

评论数:0

Spark Streaming 流计算优化记录(3)-控制流量与join的地点

4. 流量控制好像之前说过”一下子从Kafka拉取几十万条消息进行处理”的事情, 其实酱紫是不对滴, 饭要一口一口吃, 一下子吃太多, 会导致还没吃成胖子就已经被撑死的. 所以我们要对为了做压力测试而早已在Kafka中囤积多时的几十万条消息分批次进行处理, 毕竟实际跑起的时候每秒拥入我们知道, S...

2018-04-04 17:53:37

阅读数:157

评论数:0

Spark Streaming 流计算优化记录(4)-时间都去哪儿了,关于调度与空转

6. 时间都去where了,青春不能等,调度也是除了上述优化, 我们还注意到一个奇怪的现象: 怎么回事, 即使接收不到消息都要花掉5秒?!! 虽然Spark Streaming空转依然会产生空task, 这些空task依然会消耗序列化, 压缩, 调度等时间, 但也不至于那么多吧!!!我们拿一个St...

2018-04-04 17:52:50

阅读数:87

评论数:0

Spark Streaming 流计算优化记录(5)-分区与内存的优化

8. 不一定非得每秒处理一次由于Spark Streaming的原理是micro batch, 因此当batch积累到一定数量时再发放到集群中计算, 这样的数据吞吐量会更大些. 这需要在StreamingContext中设置Duration参数. 我们试着把Duration调成两秒, 这样Spar...

2018-04-04 16:45:16

阅读数:49

评论数:0

Spark Streaming 流计算优化记录(6)-GC优化与shuffle service

11. Spark应用的GC调优说到GC, 可能很多人都倾向于使用新潮的G1垃圾收集器, 特别是intel的那几个兄弟在databrick发表了篇用G1调优Spark应用的博文后, 就更多人热衷于尝试G1了.但其实我们再去年就对G1和老牌的CMS+NewPar进行过对比测试, 发现G1根本没有比C...

2018-04-04 16:10:31

阅读数:93

评论数:0

学习Spark2.0中的Structured Streaming(一)

Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL)。Structured Streaming顾名思义,它将数据源和计...

2018-03-23 15:04:56

阅读数:134

评论数:0

spark JVM调优之原理概述以及降低cache操作的内存占比

每一次放对象的时候,都是放入eden区域,和其中一个survivor区域;另外一个survivor区域是空闲的。 当eden区域和一个survivor区域放满了以后(spark运行过程中,产生的对象实在太多了),就会触发minor gc,小型垃圾回收。把不再使用的对象,从内存中清空,给后...

2017-11-06 17:57:43

阅读数:909

评论数:0

spark性能调优(三)shuffle的map端内存缓冲reduce端内存占比

性能优化 shuffle spark.shuffle.file.buffer,默认32k spark.shuffle.memoryFraction,0.2 map端内存缓冲,reduce端内存占比;很多资料、网上视频,都会说,这两个参数, 是调节shuffle性能的不二选择...

2017-11-06 15:39:31

阅读数:1126

评论数:0

Spark的性能调优

基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task...

2017-11-06 15:05:33

阅读数:938

评论数:0

ganglia配置文件详解

本文主要介绍了Ganglia 的gmetad和gmond的配置文件 Gmetad gmetad(Ganglia Meta Daemon)是一种安装在主机上用来收集和汇聚gmond所收集的指标数据的守护进程。gmetad默认使用RRD文件收集和汇聚指标数据,也可以通过配置gmetad将指...

2017-10-30 17:44:46

阅读数:944

评论数:1

布隆过滤器(Bloom Filter)详解

布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正...

2017-09-22 14:39:23

阅读数:934

评论数:0

G1垃圾回收器调优

了解如何针对评估、分析和性能来调整和调优 G1 GC。 2013 年 8 月发布 垃圾优先型垃圾回收器 (G1 GC) 是适用于 Java HotSpot VM 的低暂停、服务器风格的分代式垃圾回收器。G1 GC 使用并发和并行阶段实现其目标暂停时间,并保持良好的吞吐量。当 G1 GC 确定有...

2017-09-15 18:21:31

阅读数:1395

评论数:0

Hbase集群运维及应用性能优化总结(hbase1.20+)

(一). 操作系统              1. 足够大的内存       2. 操作系统64位,jdk64位       3. 设置linux swap空间的swappiness=0               a1. 永久有效设置(需系统重启) sudo vim...

2017-08-18 16:20:53

阅读数:1733

评论数:0

phoenix-4.8.0本地索引实现原理

1. 前言 phoenix有全局索引以及本地索引(可变与不可变等其它的且不谈),全局索引理解应该比较简单,如果让我自己去实现Hbase的索引应该想到的也是全局索引这种方式。本地索引适用于写比较频繁,储存空间受限的情况。 Local indexing targets write he...

2017-08-11 16:58:14

阅读数:837

评论数:0

phoenix-4.8.0整合hbase-1.2.0-cdh5.8.0

1. 前言 phoenix-4.8.0版本已经出了挺长一段时间了,之前一直有用开4.6版本,不过4.6版本的本地索引还不成熟,而且也存在着一些bug,在网上找到一些对旧版本的本地索引的描述 APPROACH 1 is a good start for local indexes, but I...

2017-08-11 16:53:18

阅读数:1177

评论数:0

HBase应用设计性能优化方法总结

本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。 [转发者注明: 关于使用多线程去读取hbase全表数据,推荐先将rowkey根据线程的个数划分为多段,然后将每段 s...

2017-08-10 18:41:19

阅读数:832

评论数:0

HBase写入性能改造(续)--MemStore、flush、compact参数调优及压缩卡的使用

首先续上篇测试: 经过上一篇文章中对代码及参数的修改,Hbase的写入性能在不开Hlog的情况下从3~4万提高到了11万左右。 本篇主要介绍参数调整的方法,在HDFS上加上压缩卡,最后能达到的写入性能为17W行每秒(全部测试都不开Hlog)。 上篇...

2017-08-09 19:05:25

阅读数:226

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭