2017年07月_wisgood

12月 10月 09月 08月 07月 05月 04月 02月 01月

转载 Spark踩坑记——Spark Streaming+Kafka

前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项目中的应用，最后将自己

2017-07-26 10:22:01 2720 1

转载 Kafka无消息丢失配置

Kafka到底会不会丢数据(data loss)? 通常不会，但有些情况下的确有可能会发生。下面的参数配置及Best practice列表可以较好地保证数据的持久性(当然是trade-off，牺牲了吞吐量)。笔者会在该列表之后对列表中的每一项进行讨论，有兴趣的同学可以看下后面的分析。block.on.buffer.full = trueacks = allretries = MAX_VAL

2017-07-25 14:08:35 3173

转载 kafka consumer防止数据丢失

kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2，启

2017-07-25 13:25:24 3617

转载 Kafka Mirror Maker Best Practices

Short Description:Best Practices in running Kafka Mirror MakerArticleKafka's mirroring feature makes it possible to maintain a replica of an existing Kafka cluster. This tool uses Kafka cons

2017-07-25 13:07:27 1539