- 博客(4)
- 资源 (29)
- 收藏
- 关注
转载 Spark踩坑记——Spark Streaming+Kafka
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己
2017-07-26 10:22:01 2720 1
转载 Kafka无消息丢失配置
Kafka到底会不会丢数据(data loss)? 通常不会,但有些情况下的确有可能会发生。下面的参数配置及Best practice列表可以较好地保证数据的持久性(当然是trade-off,牺牲了吞吐量)。笔者会在该列表之后对列表中的每一项进行讨论,有兴趣的同学可以看下后面的分析。block.on.buffer.full = trueacks = allretries = MAX_VAL
2017-07-25 14:08:35 3173
转载 kafka consumer防止数据丢失
kafka最初是被LinkedIn设计用来处理log的分布式消息系统,因此它的着眼点不在数据的安全性(log偶尔丢几条无所谓),换句话说kafka并不能完全保证数据不丢失。 尽管kafka官网声称能够保证at-least-once,但如果consumer进程数小于partition_num,这个结论不一定成立。 考虑这样一个case,partiton_num=2,启
2017-07-25 13:25:24 3617
转载 Kafka Mirror Maker Best Practices
Short Description:Best Practices in running Kafka Mirror MakerArticleKafka's mirroring feature makes it possible to maintain a replica of an existing Kafka cluster. This tool uses Kafka cons
2017-07-25 13:07:27 1539
rpmbuild-demo工程
2015-01-21
Weka源代码详细分析系列
2012-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人