![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
yyqq188
这个作者很懒,什么都没留下…
展开
-
Spark中的aggregate和aggregateByKey的区别及疑惑
http://blog.csdn.net/zhihaoma/article/details/52609503aggregate(zeroValue,seq,comb,taskNums)将初始值和第一个分区中的第一个元素传递给seq函数进行计算,然后将计算结果和第二个元素传递给seq函数,直到计算到最后一个值。第二个分区中也是同理操作。最后将初始值、所有分区的结果经过转载 2017-10-20 12:46:57 · 334 阅读 · 0 评论 -
sparkmllib (1)
准备用一周左右的时间来整理下sparkmllib的相关知识首先是导入mllib的源码 , 当下载完spark的源码后,例如spark-1.6.2这个文件夹然后把这个文件夹复制到当前的workspace中,新建一个scala项目,项目名也叫spark-1.6.2这,总之要保持名字一致。之后也许会有个错 说 找不到scala的libary,直接buildpath --》 add lib原创 2017-11-28 12:04:19 · 182 阅读 · 0 评论 -
解决pyspark无法导入的问题
下载spark-2.2.0-bin-hadoop2.7后进入python文件夹在python文件夹下有pyspark和pyspark.egg-info文件夹,将这两个文件夹放入anaconda所在的文件夹下我的目录是C:\ProgramData\Anaconda3\Lib\site-packages,放入该文件夹下即可然后打开pycharm后,在 file ----》 default原创 2018-01-04 10:52:11 · 9149 阅读 · 1 评论 -
learning spark core concepts(1)
there are a couple of ways to work with spark: spark-shell and spark application打开spark-shell 在不同语言下的方式scala bin/spark-shellpythonbin/pysparkRbin/sparkR以scala版本的spark-shell 举例:可以通原创 2018-03-05 11:13:58 · 217 阅读 · 0 评论 -
learning spark core concepts(3)——DataSet,DataSource
DataSet 不同于Java 或 Kryo 序列化,它用的是Encoder去序列化对象。,而且它支持动态序列化,以及可以让spark依照一个格式来执行filtering sorting操作。而且注意DataSet不支持python创建DataSetcase class Dept(dept_id:Int,dept_name:String)val deptRDD = sc.m原创 2018-03-06 10:38:53 · 228 阅读 · 0 评论