spark streaming实现状态可恢复的wordcount计算程序

在spark streaming examples的源代码中有相关的两个示例程序,一个是可恢复的wordcount程序:RecoverableNetworkWordCount.scala,还一个是有状态的wordcount程序:StatefulNetworkWordCount.scala.关于有状...

2015-05-25 17:40:50

阅读数 4953

评论数 2

Spark自定义分区(Partitioner)

转自:http://www.iteblog.com/archives/1368 我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们...

2015-05-22 10:10:27

阅读数 23268

评论数 4

雅虎的kafka-manager最新版的包,及一些常用的kafka指令

启动kafka服务: bin/kafka-server-start.sh config/server.properties & 停止kafka服务: bin/kafka-server-stop.sh 创建topic: bin/kafka-topics.sh --create --z...

2015-05-19 14:20:21

阅读数 3308

评论数 0

Spark on Yarn: Where Have All the Memory Gone?

Spark on Yarn: Where Have All the Memory Gone? Efficient processing of big data, especially with Spark, is really all about how much memory one can a...

2015-05-12 10:53:32

阅读数 1942

评论数 0

hive分区表增加字段会导致新增字段无法显示值的BUG

对hive分区表新增字段后,在执行插入分区的动作,会发现其实数据文件中已经有新字段值了,但是在查询的时候新字段的值还是显示为null。 比如我们做一个简单的问题重现 我们先创建一个分区表xj_test1,往分区dt=201501中插入一条数据: create table xj_test1(a...

2015-05-07 14:45:15

阅读数 12036

评论数 3

提示
确定要删除当前文章?
取消 删除