![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
PySpark简明笔记
文章平均质量分 95
PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署;
PySpark机器学习、自然语言处理与推荐系统;
Spark编程基础(Python版);
10天吃掉那只pyspark;
JxWang05
这个作者很懒,什么都没留下…
展开
-
PyS2:RDD编程基础(二)
5. 分区相关的操作分区的作用主要是增加并行度和减少通信开销。增加并行度就不需要多说了,我们主要来聊一聊减少通信开销。我看书上的意思大概是说分区之后避免了后续处理当中的Shuffle操作,意思是已经把数据给排列好了的感觉,所以说不用后面一次又一次地重新Shuffle。分区默认的方法有HashPartitioner和RangePartitioner,前者是根据Key进行分区,后者是为了更好地排序。5.1 改变分区的函数5.1.1 coalesce>>> rdd = sc.paral原创 2022-04-27 21:06:24 · 315 阅读 · 0 评论 -
PyS2:RDD编程基础(一)
PyS1:RDD编程基础0. 环境设置1. RDD的创建方式1.1 RDD的数据结构1.2 从本地文件创建RDD1.3 从集群文件创建RDD1.4 在代码当中创建RDD2. RDD的执行函数2.1 collect函数2.2 take函数2.3 first函数2.4 takeSample函数2.5 count函数2.6 reduce函数2.7 foreach函数2.8 countByKey函数2.9 saveAsTextFile函数3. RDD的转换函数3.1 map函数3.2 flatMap函数3.3 fi原创 2022-04-26 10:58:39 · 1845 阅读 · 0 评论 -
PyS1:概述
我没有去文件夹做验证,但据我之前的使用经验来看好像是这样的,我之前貌似在 win10 上单独装过 PySpark,反正是能运行的,对于学习而言一般是够用的。每个任务有自己专属的采用多线程的方式来执行任务,并且在任务执行的过程当中一直保持着驻留的状态。所采用的多进程模型来说,这样的设计避免了多进程任务频繁的启动开销,使得任务执行变得更加高效和可靠。窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区。我还发现了一个很好的教程,用的和鲸社区,这是代码。原创 2022-04-20 22:03:09 · 1968 阅读 · 0 评论