spark
文章平均质量分 65
xiaopihaierletian
这个作者很懒,什么都没留下…
展开
-
Spark复杂数据结构
Scala一般使用两种类型的数据,val(常量)和var(变量),并且Scala提倡使用常量而不是变量;所以当定义一个对象或变量时,我们所定义的这个对象是不变的;即我们所使用的Array,List都是不可变对象。Scala同时支持可变集合、不可变集合,两个主要的包:不可变集合:scala.collection.immutable可变集合:scala.collection.mutableScala优先采用不可变集合,对于几乎所有的集合类,Scala都同时提供了 可变、不可变的版本。数组 Ar原创 2021-07-12 22:51:14 · 205 阅读 · 1 评论 -
Spark常用特殊符号详解
=>(匿名函数)在Spark中函数也是一个对象可以赋值给一个变量。Spark的匿名函数定义格式:(形参列表) => {函数体}所以,=>的作用就是创建一个匿名函数实例。比如:(x:Int) => x +1 ,就等同于下面的Java方法:public int function(int x) { return x+1;}示例:class Symbol { var add = (x: Int) => x + 1}object t...原创 2021-07-12 22:23:50 · 2979 阅读 · 2 评论 -
Spark编程指南
备注:根据官网http://spark.apache.org/docs/latest/rdd-programming-guide.html进行对比更新Spark编程指南(写在前面,本文是翻译自2015年7月29日的http://spark.apache.org/docs/latest/programming-guide.html,由于水平所限,肯定存在很多翻译不到位地方。本文的翻译是为了加深自己作为初学者对Spark的理解,欢迎大家指出各种理解上的错误。)一,概述每个Spark应用都有一个.转载 2021-07-04 17:37:55 · 431 阅读 · 0 评论 -
Spark-submit参数优化配置
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个原创 2021-07-04 17:22:01 · 866 阅读 · 0 评论 -
Spark-saveAsTextFile 分区设置
scala> val rd1 =sc.parallelize(Array(1 to 10000))rd1: org.apache.spark.rdd.RDD[scala.collection.immutable.Range.Inclusive] = ParallelCollectionRDD[24] at parallelize at <console>:24scala> rd1.partitions.sizeres32: Int = 24scala> rd1.s原创 2021-07-04 17:06:34 · 822 阅读 · 0 评论 -
spark中saveAsTextFile如何最终生成一个文件
一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00000一直到part-0000n,n自然就是task的个数,亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件,而不是成百上千个文件了?答案自然是有办法。 在RDD上调用coalesce(1,true).saveAsTextFile(),意味着做完计算之后将数据汇集到一个分区,然后再执行保存的动作,显然,一个分区,Spark自然只起一个task来执行保存的动作,也就只有一个文件产生了。又或原创 2021-07-03 18:28:56 · 805 阅读 · 1 评论 -
org.apache.spark.SparkException:job aborted due to stage failure spark driver maxResultSize (1024)
org.apache.spark.SparkException:job aborted due to stage failure spark driver maxResultSize (1024)本地local模式运行报spark.driver.maxResultSize超出1024M,接下来分解决方法、参数含义及默认值等维度说明。一、解决方法:增大spark.driver.maxResultSize,设置方式是sparkConf.set("spark.driver.maxResultSi原创 2021-07-03 16:50:43 · 1347 阅读 · 0 评论 -
Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法
ERROR:在SparkSQL中获取Row的值,而且Row的字段允许null时,在取值的时候取到null赋值给新的变量名会报NullPointerException错误解决:可以先用row.isNullAt(index)去判断该字段的值是否为空具体案例如下:首先上错误修改为先初始化变量,判断row.isNullAt(6) 如果不为空就将值赋值给变量...原创 2021-07-03 16:31:56 · 930 阅读 · 0 评论 -
Scala学习笔记
写在前面:之前接触Spark还在研一的时候,看了原始论文+学习Scala+跑了简单demo,现在已经忘得差不多了,实验室没有什么应用场景就荒废掉了。过去大半年主要学习数据挖掘理论知识与实践比赛,对于大数据计算框架的学习搁置了,鉴于今年就要找工作了,决定重拾Haoop、Spark等相关技术,并结合数据做些数据挖掘工作。Spark是基于Scala语言的,虽然也有Python接口,但是还是想体验原创 2017-04-21 10:17:31 · 464 阅读 · 1 评论 -
Win 7 64位 单机Spark安装
1.准备安装软件(1)jdk 1.8 (2)scala (3)Intellij IDE (4)spark-1.3.0-bin-hadoop2.4.tgz 为了读者方便,这里已经把以上文件下载好共享到百度网盘里了 地址2.安装过程(1)jdk 1.8 默认安装,安装完记得配置下环境变量,可通过cmd java -version检查是否安装成功 (2)原创 2017-04-21 10:12:41 · 440 阅读 · 0 评论