- 博客(6)
- 资源 (7)
- 收藏
- 关注
原创 缓存jar包来提升spark on Yarn job的提交速度
之前一直使用Spark standalone方式提交job,最近team换成了yarn方式,但发现在yarn上,提交job的速度比standalone慢的多;看提交的日志,发现其中有个很明显的东西,yarn会将spark-assembly-1.3.0-hadoop2.4.0.jar 上传到hdfs中,这个jar包有130M+,花费了好几秒的时间,其实可以将其缓存在hdfs上的,每次job提交时不再需
2015-12-31 11:33:35 3732
原创 spark job 独立的log4j配置方法
spark中提供了log4j的方式记录日志。可以在$SPARK_HOME/conf/下,将 log4j.properties.template 文件copy为 log4j.properties 来启用log4j配置。但这个配置为全局配置, 不能单独配置某个job的运行日志。本文介绍spark (streaming) job独立配置的log4j的方法。设置方法spark job提交时可以在 --co
2015-12-30 18:35:14 12702
原创 spring initialize-database 使用方法
spring initialize-database 使用方法做系统时经常遇到需要初始化数据库的问题,spring 有个很用户的标签 initialize-database,实现这个功能,备忘下。只需要在xml中做如下配置配置: <beans xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
2015-12-29 13:52:15 1816 1
原创 spark createDirectStream保存kafka offset(JAVA实现)
问题描述最近使用spark streaming处理kafka的数据,业务数据量比较大,使用了kafkaUtils的createDirectStream()方式,此方式跳过了zookeeper,并且没有receiver,能保证消息恰好一次语意。但是此种方式因为没有经过zk,topic不能自动保存offset,本文讨论在使用createDirectStream时如何保存kafka topic offset。
2015-12-22 19:17:03 15565 8
原创 spark streaming job数据输出数目不准确问题排查记录
详细描述2015-12-18日提交测试,发现spark streaming job数据进入条数与输出的条数不一致: 发200条数据,streaming job 接收200,处理后输出250。问题分析排查了job代码,以及数据输出逻辑,均无发现问题。在查看job执行情况时发现一个很奇怪的task状态,见下图:发现index-0的task产生了 speculative状态的task,因此猜测 s
2015-12-21 12:29:58 1314
Android Programming-浙江大学(有实例)中文
2011-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人