PySpark简明笔记_JxWang05的博客-CSDN博客

PySpark简明笔记

关注

文章平均质量分 95

PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署； PySpark机器学习、自然语言处理与推荐系统； Spark编程基础(Python版)； 10天吃掉那只pyspark；

关注数：文章数：3 文章阅读量：4134 文章收藏量：4

作者: JxWang05

这个作者很懒，什么都没留下…

展开

PyS2：RDD编程基础（二）

5. 分区相关的操作分区的作用主要是增加并行度和减少通信开销。增加并行度就不需要多说了，我们主要来聊一聊减少通信开销。我看书上的意思大概是说分区之后避免了后续处理当中的Shuffle操作，意思是已经把数据给排列好了的感觉，所以说不用后面一次又一次地重新Shuffle。分区默认的方法有HashPartitioner和RangePartitioner，前者是根据Key进行分区，后者是为了更好地排序。 5.1 改变分区的函数 5.1.1 coalesce >>> rdd = sc.paral

原创 2022-04-27 21:06:24 · 316 阅读 · 0 评论
PyS2：RDD编程基础（一）

PyS1：RDD编程基础0. 环境设置1. RDD的创建方式1.1 RDD的数据结构1.2 从本地文件创建RDD1.3 从集群文件创建RDD1.4 在代码当中创建RDD2. RDD的执行函数2.1 collect函数2.2 take函数2.3 first函数2.4 takeSample函数2.5 count函数2.6 reduce函数2.7 foreach函数2.8 countByKey函数2.9 saveAsTextFile函数3. RDD的转换函数3.1 map函数3.2 flatMap函数3.3 fi

原创 2022-04-26 10:58:39 · 1848 阅读 · 0 评论
PyS1：概述

我没有去文件夹做验证，但据我之前的使用经验来看好像是这样的，我之前貌似在 win10 上单独装过 PySpark，反正是能运行的，对于学习而言一般是够用的。每个任务有自己专属的采用多线程的方式来执行任务，并且在任务执行的过程当中一直保持着驻留的状态。所采用的多进程模型来说，这样的设计避免了多进程任务频繁的启动开销，使得任务执行变得更加高效和可靠。窄依赖表现为一个父RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区。我还发现了一个很好的教程，用的和鲸社区，这是代码。

原创 2022-04-20 22:03:09 · 1970 阅读 · 0 评论

PySpark简明笔记

作者: JxWang05

PyS2：RDD编程基础（二）

PyS2：RDD编程基础（一）

PyS1：概述