spark
文章平均质量分 76
xiao_jun_0820
要自己每天都开心,不要烦恼
忘掉压力,天天好心情
展开
-
Exception Handling in Spark Data Frames
http://anishc.me/spark/exception-handling-spark-data-frames/ Exception Handling in Spark Data Frames 7 minute readGeneral Exception HandlingHandling exceptions in imperative programming in e...转载 2018-11-01 14:34:57 · 495 阅读 · 0 评论 -
spark streaming 同时处理两个不同kafka集群的数据
如题,总是不那么完美,要处理的数据在两个不同的kafka集群里面,日子得过,问题也得解决,我们创建两个DStream,连接两个不同的kafka集群的不同topic,然后再把这两个DStream union在一起处理,代码如下:package com.kingnetimport java.utilimport org.apache.spark.SparkConfimport org.a原创 2016-07-13 15:16:32 · 11549 阅读 · 2 评论 -
如何在idea里面直接运行spark streaming程序
在windows环境下,虽然控制台报了一大堆错误,但是spark streaming还是按照它的逻辑跑着,也能得到正确的结果,并且能够打断点调试!!!由于报了一大坨的错误在控制台,导致我想看到的信息老是被刷屏出去,于是把代码放进linux的idea中去跑,发现streaming程序根本启动不起来!报如下错误:Using Spark's default log4j profile: org/原创 2016-05-03 14:19:48 · 5274 阅读 · 0 评论 -
spark1.5 自定义聚合函数UDAF
自定义聚合函数需要实现UserDefinedAggregateFunction,以下是该抽象类的定义,加了一点注释:/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed原创 2016-05-26 16:26:31 · 5927 阅读 · 1 评论 -
spark1.4.0基于yarn的安装心得体会
目前线上用的是cdh5.3.2中内嵌的spark1.2.0版本,该版本BUG还是蛮多的,尤其是一些spark sql的BUG,简直不能忍。spark1.4.0新出的支持SparkR,其他用R的同时很期待试用该版本看看sparkR好不好用,于是乎打算升级一下spark的版本。以前都是在cloudera manager中一件安装的spark,感觉好轻松愉快,现在要独立安装一个基于yarn的spar原创 2015-06-19 14:58:26 · 9061 阅读 · 8 评论 -
如何建立完整可用的安全大数据平台
如何建立完整可用的安全大数据平台2016-03-07 江金陵 大数据杂谈“ 要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡。此外,没有任何一个引入大数据解决方转载 2016-03-09 11:38:30 · 6513 阅读 · 0 评论 -
Spark Streaming实践和优化
Spark Streaming实践和优化2016-02-20 徐鑫 hadoop123点击hadoop123关注我哟☀最知名的hadoop/spark大数据技术分享基地,分享hadoop/spark技术内幕,hadoop/spark最新技术进展,hadoop/spark行业技术应用,发布hadoop/spark相关职位和求职信息,hadoop/spark技术转载 2016-02-22 11:17:58 · 9843 阅读 · 2 评论 -
How-to: Install Apache Zeppelin on CDH
http://blog.cloudera.com/blog/2015/07/how-to-install-apache-zeppelin-on-cdh/Our thanks to Karthik Vadla and Abhi Basu, Big Data Solutions engineers at Intel, for permission to re-publish转载 2016-03-18 15:38:37 · 1813 阅读 · 0 评论 -
Spark生态顶级项目汇总
现在Apache Spark已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。Spark官方构建了一个非常紧凑的生态系统组件,提供各种处理能力。 下面是Spark官方给出的生态系统组件(引自Spark官方文档)。Spark DataFrames:列式存储的分布式数据组织,类似于关系型数据表。Spark SQL:可以执行S转载 2016-03-18 14:13:12 · 1696 阅读 · 0 评论 -
图片降维处理
彩色图片一个像素是有RGB3色,就算用int保存的话,一个Int 4个字节,也要12个字节,需要转换成单色灰色,这样就只需要一个数字来表示颜色了,从而降低了维度,并节约了内存import java.awt.image.BufferedImageimport java.io.Fileimport javax.imageio.ImageIOimport org.apache.spark原创 2016-03-18 11:59:37 · 7672 阅读 · 0 评论 -
shell执行scala脚本
新建一个helloworld.sh如下:#!/bin/shexec scala "$0" "$@"!#case class Person(name:String)object HelloWorld { def main(args:Array[String]){ require(args.length==1) val al = Per原创 2015-03-26 17:37:11 · 9344 阅读 · 0 评论 -
UDF overloading in spark
没啥好方法,spark注册udf不能重载,只能通过hive udf曲线救国,然后只能用hiveContext了,不能使用sqlContext。。。UDF are User Defined Function which are register with hive context to use custom functions in spark SQL queries. For exampl转载 2016-11-11 15:47:04 · 746 阅读 · 0 评论 -
yarn client中的一个BUG的修复
org.apache.spark.deploy.yarn.Client.scala中的monitorApplication方法:/** * Report the state of an application until it has exited, either successfully or * due to some failure, then return a pair o原创 2017-02-20 11:36:23 · 2963 阅读 · 0 评论 -
关于hadoop与jstl冲突的jar包问题
最近在做一个提交spark作业的web后台,当前端页面需要用到el表达式时,出现报错:The method proprietaryEvaluate(String, Class, PageContext, ProtectedFunctionMapper, boolean) in the type PageContextImpl is not applicable for the argume原创 2017-02-09 15:47:21 · 1170 阅读 · 0 评论 -
一步一步完成如何在现有的CDH集群中部署一个与CDH版本不同的spark
首先当然是下载一个spark源码,在http://archive.cloudera.com/cdh5/cdh/5/中找到属于自己的源码,自己编译打包,有关如何编译打包可以参考一下我原来写的文章:http://blog.csdn.net/xiao_jun_0820/article/details/44178169执行完之后你应该能得到一个类似spark-1.6.0-cdh5.7.原创 2017-02-17 17:52:31 · 5814 阅读 · 0 评论 -
关于spark程序动态资源分配的一些理解
环境:cdh5.7.1cdh5.7.1中的spark版本为spark1.6关于如何配置动态资源分配,参见:http://spark.apache.org/docs/1.6.3/job-scheduling.html#dynamic-resource-allocationcloudera manager中的默认配置时开启了spark 动态资源分配的,也就是spark.原创 2017-02-08 15:43:05 · 6803 阅读 · 1 评论 -
Starting Spark jobs directly via YARN REST API
首页 / DS, Analytics & Spark /Starting Spark jobs directly via YARN REST APIBernhard Walter 创建 · 2016年04月18日 17:20 · 已编辑 · 2016年04月18日 17:489Short Description:This转载 2017-01-10 18:21:07 · 1583 阅读 · 0 评论 -
如何在spark-shell命令行执行spark hql
前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入如下语句:val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) 你会发现没法执行通过,因为c原创 2015-03-17 19:02:06 · 18702 阅读 · 0 评论 -
Apache Spark’s Hidden REST API
Apache Spark™ is a fast and general engine for large-scale data processing. It’s really popular as it’s very fast, easy to use and has a great documentation.It even comes with handy script to su转载 2016-11-16 18:52:05 · 3074 阅读 · 0 评论 -
关于spark ui的端口号,踩到一个浏览器的坑,其实不算一个问题
周知,spark ui的默认端口是4040,然后被占用了就会顺序取+1的端口,当开了多个spark程序之后,当端口号加到了4045,在chrome浏览器里面就打不开了。会返回一个UNSAFE PORT的错误信息,其实这是浏览器禁用了你访问这个端口,程序其实是正常运行的。因此建议手工指定spark.ui.port=4046在spark-defaults.conf配置文件中,如果4046被占用了,原创 2016-11-25 15:29:48 · 13209 阅读 · 0 评论 -
spark sql中踩到的一个坑,自定义Udf会执行多次,即使在已经cache table的情况下
spark sql中踩到的一个坑,自定义Udf会执行多次,即使在已经cache table的情况下: https://issues.apache.org/jira/browse/SPARK-15282以前也没发现这个问题,因为如果一个UDF是无状态的话,其实执行多次并不会导致结果的最终一致性被打破,说来也巧啊,最近写了一个UDF里面封装了redis的hsetnx操作 val hse原创 2016-11-21 13:28:33 · 3766 阅读 · 0 评论 -
spark rdd checkpoint的用法注意点
/** * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint * directory set with `SparkContext#setCheckpointDir` and all references to its parent * RDDs will be原创 2016-01-07 12:22:53 · 9618 阅读 · 1 评论 -
Spark + ansj 对大数据量中文进行分词
目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用 spark + ansj对存储在hdfs中的中文文本数据进行分词。 首先下载ansj源码文件,下载地址为https://github.com/NLPchina/ansj_seg,同时需要下载转载 2015-12-21 10:10:16 · 6166 阅读 · 0 评论 -
spark 使用中会遇到的一些问题及解决思路
7 内存溢出问题 在Spark中使用hql方法执行hive语句时,由于其在查询过程中调用的是Hive的获取元数据信息、SQL解析,并且使用Cglib等进行序列化反序列化,中间可能产生较多的class文件,导致JVM中的持久代使用较多,如果配置不当,可能引起类似于如下的OOM问题:Exception in thread "Thread-2" java.lang.转载 2015-04-14 10:13:24 · 68201 阅读 · 1 评论 -
写了2个简单的工具脚本用来分发hdfs集群上的文件到所有节点,和远程执行命令
#!/bin/bashif [ $# != 2 ]; then echo "useage: $0 " exit 1fiCURR_PATH="$(cd "`dirname "$0"`"/; pwd)"hosts_file=$CURR_PATH"/hosts"if [ ! -f "$hosts_file" ]; then echo "$hosts_file n原创 2015-04-01 15:49:40 · 2313 阅读 · 0 评论 -
用spark实现hive中的collect_set函数的功能
import org.apache.spark.SparkContext._import org.apache.spark._/** * Created by xiaojun on 2015/3/9. */object SparkDemo2 { def main(args: Array[String]) { case class User(id: String, name原创 2015-03-12 14:42:38 · 4527 阅读 · 0 评论 -
用spark实现count(distinct fieldname)形式的聚合
举个例子,比如要统计用户的总访问次数和去除访问同一个URL之后的总访问次数,随便造了几条样例数据(四个字段:id,name,vtm,url,vtm字段本例没用,不用管)如下:id1,user1,2,http://www.hupu.comid1,user1,2,http://www.hupu.comid1,user1,3,http://www.hupu.comid1,user1,100原创 2015-03-12 16:47:34 · 9986 阅读 · 3 评论 -
spark中的SparkContext实例的textFile使用的小技巧
网上很多例子,包括官网的例子,都是用textFile来加载一个文件创建RDD,类似sc.textFile("hdfs://n1:8020/user/hdfs/input")textFile的参数是一个path,这个path可以是:1. 一个文件路径,这时候只装载指定的文件2. 一个目录路径,这时候只装载指定目录下面的所有文件(不包括子目录下面的文件)3. 通过通配符的形式加载多个文原创 2015-03-12 10:23:43 · 38746 阅读 · 4 评论 -
让cloudera manager装的spark支持hql
如何编译spark源码 的assembly来支持hive前面的文章已经介绍过,如果你是用cm装的搭建的集群:第一步:在cm 中的spark service里指定gateway为你要使用spark命令行的节点。第二步:将assembly jar上传到hdfs第三步:在spark的服务范围中修改以下配置为你在hdfs上的assembly jar第四步:spark原创 2015-03-27 19:32:38 · 7109 阅读 · 0 评论 -
MLlib中的Random Forests和Boosting
在Spark 1.2中,MLlib引入了Random Forests和Gradient-Boosted Trees(GBTs)。在分类和回归处理上,这两个算法久经验证,同时也是部署最广泛的两个方法。Random Forests和GBTs属于ensemble learning algorithms(集成学习算法),通过组合多个决策树来建立更为强大的模型。在本篇文章,我们将介绍这两个模型和他们在M转载 2015-03-17 10:13:08 · 1481 阅读 · 0 评论 -
spark实现hive的合并输入很多小文件为指定大小的大文件的优化功能
源码地址:https://github.com/RetailRocket/SparkMultiTool找到的先记下来,有空研究一下。原创 2015-03-16 18:54:51 · 9756 阅读 · 0 评论 -
spark storage相关配置
Storage相关配置参数spark.local.dir这个看起来很简单,就是Spark用于写中间数据,如RDD Cache,Shuffle,Spill等数据的位置,那么有什么可以注意的呢。首先,最基本的当然是我们可以配置多个路径(用逗号分隔)到多个磁盘上增加整体IO带宽,这个大家都知道。其次,目前的实现中,Spark是通过对文件名采用hash算法分布到多个路径下的目录中去转载 2015-03-16 17:35:56 · 1012 阅读 · 0 评论 -
spark sql cache table
Spark sql CachingThe shark.cache table property no longer exists, and tables whose name end with _cached are no longer automatically cached. Instead, we provide CACHE TABLE and UNCACHE TABLE stateme原创 2015-04-17 11:33:16 · 5468 阅读 · 0 评论 -
Spark on Yarn: Where Have All the Memory Gone?
Spark on Yarn: Where Have All the Memory Gone?Efficient processing of big data, especially with Spark, is really all about how much memory one can afford, or how efficient use one can make of the li转载 2015-05-12 10:53:32 · 2216 阅读 · 0 评论 -
Spark读取配置
转自:https://github.com/keepsimplefocus/spark-sourcecodes-analysis/blob/master/markdowns/Spark%E8%AF%BB%E5%8F%96%E9%85%8D%E7%BD%AE.mdSpark读取配置我们知道,有一些配置可以在多个地方配置。以配置executor的memory为例,有以下三种方式: 1. s转载 2015-12-02 10:00:33 · 5492 阅读 · 0 评论 -
Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的tas转载 2016-01-18 09:42:38 · 1044 阅读 · 1 评论 -
spark mllib 中的tf-idf算法计算文档相似度
import org.apache.spark.mllib.feature.{HashingTF, IDF}import org.apache.spark.mllib.linalg.{SparseVector => SV}import org.apache.spark.{SparkConf, SparkContext}import scala.io.Source/** * Crea原创 2015-10-20 15:31:37 · 12057 阅读 · 0 评论 -
关于spark history server 无法显示完成的JOB的问题解决
该问题主要是由于访问HDFS的访问权限导致的,表现为配置的hdfs上的/user/spark/applicationHistory目录下面可以生成具体的application历史信息,但是history server ui上却无法显示,表示这个目录有写入权限没有读取权限,为什么有写入权限呢?因为我执行spark-submit的时候export HADOOP_USER_NAME=hdfs了,hdfs原创 2015-09-25 19:24:26 · 8050 阅读 · 0 评论 -
七牛是如何搞定每天500亿条日志的
七牛是如何搞定每天500亿条日志的2015-07-31 CSDN 七牛云存储7月30日,七牛数据平台工程师王团结在CSDN Spark微信用户群,与近千名Spark技术开发人员,结合七牛内部使用的数据平台,深入分享了团队是如何利用Flume、Kafka、Spark Streaming等技术搞定每天500亿条日志的,并详细讲解了各个工具使用的注意点。王团结,主要负责七牛数转载 2015-08-04 13:39:32 · 3272 阅读 · 0 评论 -
这几天折腾spark的kafka的低阶API createDirectStream的一些总结。
大家都知道在spark1.3版本后,kafkautil里面提供了两个创建dstream的方法,一个是老版本中有的createStream方法,还有一个是后面新加的createDirectStream方法。关于这两个方法的优缺点,官方已经说的很详细(http://spark.apache.org/docs/latest/streaming-kafka-integration.html),总之就是cr原创 2015-07-16 15:39:33 · 46504 阅读 · 8 评论