spark
奔奔强
这个作者很懒,什么都没留下…
展开
-
Redis on spark java.io.NotSerializableException
在使用spark streaming 处理数据后,将数据存入redis中,但是出现了为序列化问题,如下图所示:问题代码如下:val ssc = new StreamingContext(conf,Seconds(args(2).toInt))//.....//.....//.....//建立一个Redis连接val redis = new RedisClient("master.hadoo原创 2015-04-11 13:00:06 · 4137 阅读 · 0 评论 -
Tachyon0.6.4+Spark1.3+hadoop2.6.0 配置教程详解
前言本文在安装前已经配置好了spark1.3和hadoop2.6,因项目需求需要搭建tachyon,但是搭建过程中遇到了很多的问题,写下本文用来记录这一路上所踩过的坑单节点安装先说单点,单点搞定,集群就简单了 安装tachyon,官网(https://github.com/amplab/tachyon/releases)下载了最新版本的二进制包,然后按照官方的教程一步一步来,首先是配置local(原创 2015-05-20 11:36:35 · 2131 阅读 · 1 评论 -
Spark 操作 HBase 详解 spark1.4 hbase1.0
引言Apache HBase v1.0 发布了,这是 HBase 一个主要的里程碑。 值得我们注意的是,hbase1.0推出了全新的 API 以及重新组织客户端 API,被标注deprecated的api将于2.0版本去除。本文内容大部分基于Hbase源码官方文档及网络博客 User API Reference HBase Refguide 甘道夫 所有代码基于spark1.3、hbase原创 2015-04-17 17:35:15 · 3939 阅读 · 0 评论 -
spark streaming 错误集锦
问题1:No output streams registered, so nothing to execute解决原因:没有触发DStream需要的aciton 解决方法:使用以下方法之一触发:print()foreachRDD()saveAsObjectFiles()saveAsTextFiles()saveAsHadoopFiles()原创 2015-05-27 12:39:47 · 8052 阅读 · 0 评论 -
sealed trait Scala学习笔记-面向对象篇
被sealed 声明的 trait仅能被同一文件的的类继承。 除了这个,我们通常将sealed用于枚举中,因为编译器在编译的时候知道这个trait被哪些类继承过,因此我们在match时对sealed trait进行case 的时候,如果你没有判断全部编译器在编译时就会报错。下面举例:在Person.class文件中:sealed trait Personcase class Teacher(n原创 2015-05-24 21:00:52 · 5578 阅读 · 0 评论 -
Spark任务提交jar包依赖解决方案
通常我们将spark任务编写后打包成jar包,使用spark-submit进行提交,因为spark是分布式任务,如果运行机器上没有对应的依赖jar文件就会报ClassNotFound的错误。 下面有三个解决方法:方法一:spark-submit –jars根据spark官网,在提交任务的时候指定–jars,用逗号分开。这样做的缺点是每次都要制定jar包,而且多的时候容易乱。或者不用jars也可使用原创 2015-08-28 16:40:40 · 48376 阅读 · 6 评论 -
Spark编程注意事项
SimpleDateFormat我们使用spark做数据处理最频繁使用的就是simpleDateFormat来转化日期格式,在实践中发现,sdf总是莫名其妙的出现错误,例如:“java.lang.NumberFormatException: For input string: “””,而且有时候出现错误的记录个数都不一样。后来通过查阅SimpleDateFormat有这么一段内容:Date form原创 2015-08-31 13:38:50 · 1652 阅读 · 0 评论