spark
yyqq188
这个作者很懒,什么都没留下…
展开
-
Spark中的aggregate和aggregateByKey的区别及疑惑
http://blog.csdn.net/zhihaoma/article/details/52609503 aggregate(zeroValue,seq,comb,taskNums) 将初始值和第一个分区中的第一个元素传递给seq函数进行计算,然后将计算结果和第二个元素传递给seq函数,直到计算到最后一个值。第二个分区中也是同理操作。最后将初始值、所有分区的结果经过转载 2017-10-20 12:46:57 · 346 阅读 · 0 评论 -
sparkmllib (1)
准备用一周左右的时间来整理下sparkmllib的相关知识 首先是导入mllib的源码 , 当下载完spark的源码后,例如spark-1.6.2这个文件夹 然后把这个文件夹复制到当前的workspace中,新建一个scala项目,项目名也叫spark-1.6.2这,总之要保持名字一致。 之后也许会有个错 说 找不到scala的libary,直接buildpath --》 add lib原创 2017-11-28 12:04:19 · 190 阅读 · 0 评论 -
解决pyspark无法导入的问题
下载spark-2.2.0-bin-hadoop2.7后进入python文件夹 在python文件夹下有pyspark和pyspark.egg-info文件夹,将这两个文件夹放入anaconda所在的文件夹下 我的目录是C:\ProgramData\Anaconda3\Lib\site-packages,放入该文件夹下即可 然后打开pycharm后,在 file ----》 default原创 2018-01-04 10:52:11 · 9248 阅读 · 1 评论 -
learning spark core concepts(1)
there are a couple of ways to work with spark: spark-shell and spark application 打开spark-shell 在不同语言下的方式 scala bin/spark-shell python bin/pyspark R bin/sparkR 以scala版本的spark-shell 举例: 可以通原创 2018-03-05 11:13:58 · 229 阅读 · 0 评论 -
learning spark core concepts(3)——DataSet,DataSource
DataSet 不同于Java 或 Kryo 序列化,它用的是Encoder去序列化对象。,而且它支持动态序列化,以及可以让spark依照一个格式来执行filtering sorting操作。 而且注意DataSet不支持python 创建DataSet case class Dept(dept_id:Int,dept_name:String) val deptRDD = sc.m原创 2018-03-06 10:38:53 · 240 阅读 · 0 评论