PySpark
文章平均质量分 94
AI_Maynor
maynor1024.live ,博客之星大数据领域Top1,大厂程序员,GitHub项目awesome-chatgpt-project作者, 全网技术矩阵粉丝7w+
展开
-
Python大数据之PySpark(八)SparkCore加强
(目前40+工具及实战案例,持续更新,实战类小册排名第一,做三个月挣不到钱找我退款,交个朋友的产品)后续讲到Spark内存模型中,缓存放在Execution内存模块。print(“释放缓存之后,直接从rdd的依赖链重新读取”)📢本文由 Maynor 原创,首发于 CSDN博客🙉。📢感觉这辈子,最深情绵长的注视,都给了手机⭐。面试题:如何实现Spark的容错?如果不在需要缓存的数据,可以释放。spark中提供cache方法。join为主基础算子。为什么有检查点机制?如何使用检查点机制?检查点机制那些作用?原创 2023-10-10 00:15:00 · 1322 阅读 · 4 评论 -
Python大数据之PySpark(七)SparkCore案例
重点关注在如何对数据进行清洗,如何按照需求进行统计1-rdd的创建的两种方法,必须练习2-rdd的练习将基础的案例先掌握。map。flatMap。3-sougou的案例需要联系2-3遍练习流程:首先先要将代码跑起来然后在理解代码,这一段代码做什么用的在敲代码,需要写注释之后敲代码。原创 2023-10-08 06:00:00 · 3362 阅读 · 16 评论 -
Python大数据之PySpark(六)RDD的操作
📢博客主页:https://manor.blog.csdn.net📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢本文由 Maynor 原创,首发于 CSDN博客🙉📢感觉这辈子,最深情绵长的注视,都给了手机⭐📢专栏持续更新,欢迎订阅:https://blog.csdn.net/xianyu120/category_12453356.html原创 2023-10-07 20:54:56 · 1213 阅读 · 1 评论 -
Python大数据之PySpark(五)RDD详解
📢本文由 Maynor 原创,首发于 CSDN博客🙉。分区个数getNumberPartitions。📢感觉这辈子,最深情绵长的注视,都给了手机⭐。分区内元素glom().collect()PySpark中RDD的创建两种方式。扩展阅读:RDD分区数如何确定。WordCount中RDD。RDD特点—不需要记忆。通过外部数据创建RDD。并行化方式创建RDD。原创 2023-10-04 00:00:00 · 1537 阅读 · 1 评论 -
Python大数据之PySpark(四)SparkBase&Core
executor-memory 默认1G,Memory per executor (e.g. 1000M, 2G) (Default: 1G) ,每个executour的内存。–executor-memory 默认1G,Memory per executor (e.g. 1000M, 2G) (Default: 1G) ,每个executour的内存。Yarn的回顾:Driver------AppMaster------RM-----NodeManager—Continer----Task。原创 2023-10-03 19:01:20 · 1390 阅读 · 1 评论 -
PySpark部署安装
Anaconda(水蟒):是一个科学计算软件发行版,集成了大量常用扩展包的环境,包含了 conda、Python 等 180 多个科学计算包及其依赖项,并且支持所有操作系统平台。下载地址:https://www.continuum.io/downloadsl 安装包:pip install xxx,conda install xxxl 卸载包:pip uninstall xxx,conda uninstall xxx。原创 2023-09-30 00:00:00 · 263 阅读 · 0 评论 -
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
函数式编程#Python中的函数式编程return x*x#2-lambda 匿名函数 java: x=>x*x 表达式 Scala:x->x*xreturn x+y# 语法 lambda表达式语言:【lambda 变量:表达式】# 列表表达式 [表达式 for 变量 in 可迭代的序列中 if 条件]#3-reduce# 4-filter1','***']print(list(filter(func,seq1))) #返回 filter 对象# sorted()原创 2023-09-29 00:00:00 · 1393 阅读 · 0 评论 -
Python大数据之PySpark(二)PySpark安装
测试:目前node1是主节点,node2是standby备用主节点,这时候将node1 的master进程干掉,然后看node2的master是否能够接替node1的master的作用,成为active的master。3)、Executor在接收到Task后,会下载Task的运行时依赖,在准备好Task的执行环境后,会开始执行Task,并且将Task的运行状态汇报给Driver;#执行计算的过程在worker中,一个worker有很多executor(进程),一个executor下面有很多task(线程)原创 2023-09-28 00:00:00 · 2135 阅读 · 1 评论 -
Python大数据之PySpark(一)SparkBase
Spark风雨十年s2012年Hadoop1.x出现,里程碑意义2013年Hadoop2.x出现,改进HDFS,Yarn,基于Hadoop1.x框架提出基于内存迭代式计算框架Spark1-Spark全家桶,实现离线,实时,机器学习,图计算2-spark版本从2.x到3.x很多优化3-目前企业中最多使用Spark仍然是在离线处理部分,SparkSQL On HiveSpark 是什么Spark是一个处理大规模数据的计算引擎扩展阅读:Spark VS HadoopSpark和Hadoop对比。原创 2023-09-26 11:10:27 · 1391 阅读 · 0 评论