2015年12月_xueba207

12月 05月 01月

原创缓存jar包来提升spark on Yarn job的提交速度

之前一直使用Spark standalone方式提交job，最近team换成了yarn方式，但发现在yarn上，提交job的速度比standalone慢的多；看提交的日志，发现其中有个很明显的东西，yarn会将spark-assembly-1.3.0-hadoop2.4.0.jar 上传到hdfs中，这个jar包有130M+，花费了好几秒的时间，其实可以将其缓存在hdfs上的，每次job提交时不再需

2015-12-31 11:33:35 3732

原创 spark job 独立的log4j配置方法

spark中提供了log4j的方式记录日志。可以在$SPARK_HOME/conf/下，将 log4j.properties.template 文件copy为 log4j.properties 来启用log4j配置。但这个配置为全局配置，不能单独配置某个job的运行日志。本文介绍spark (streaming) job独立配置的log4j的方法。设置方法spark job提交时可以在 --co

2015-12-30 18:35:14 12702

原创 spring initialize-database 使用方法

spring initialize-database 使用方法做系统时经常遇到需要初始化数据库的问题，spring 有个很用户的标签 initialize-database，实现这个功能，备忘下。只需要在xml中做如下配置配置： <beans xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

2015-12-29 13:52:15 1816 1

原创 spark createDirectStream保存kafka offset(JAVA实现)

问题描述最近使用spark streaming处理kafka的数据，业务数据量比较大，使用了kafkaUtils的createDirectStream()方式，此方式跳过了zookeeper，并且没有receiver，能保证消息恰好一次语意。但是此种方式因为没有经过zk，topic不能自动保存offset，本文讨论在使用createDirectStream时如何保存kafka topic offset。

2015-12-22 19:17:03 15565 8

原创 spark streaming job数据输出数目不准确问题排查记录

详细描述2015-12-18日提交测试，发现spark streaming job数据进入条数与输出的条数不一致: 发200条数据，streaming job 接收200，处理后输出250。问题分析排查了job代码，以及数据输出逻辑，均无发现问题。在查看job执行情况时发现一个很奇怪的task状态，见下图:发现index-0的task产生了 speculative状态的task，因此猜测 s

2015-12-21 12:29:58 1314