Spark
文章平均质量分 78
小萨_Joshua
月入1800搞数仓的老程序员
记录自己的学习笔记
展开
-
Spark02基本操作
Spark基本操作##读<<Python大数据处理库PySpark实战>>总结1,Spark对内存数据的抽象,即为RDD,RDD是一种分布式,多分区,只读的数组Spark可以将HDFS块文件转换成RDD,也可以由一个或多个RDD转换成新的RDDPySpark首先利用Python创建Spark Context对象,用Socket与JVM上的Spark Context通信,这个过程借助Py4J库JVM上的Spark Context负责与集群上的Spark Worker节点进行交原创 2022-04-19 17:11:13 · 225 阅读 · 0 评论 -
Spark01核心概念
Spark核心概念1,Spark最重要的特点是基于内存进行计算,用Scala语言编写2,MR处理数据慢的原因:MR从HDFS中读取数据,将中间结果写入HDFS,然后再重新从HDFS读取数据进MR操作,再回写HDFS中,这个过程涉及多次磁盘IO操作3,Spark与Hadoop实现原理对比Spark中,用户提交的任务称为Application,一个 Application对应一个SparkContext,一个Application中存在多个Job,每触发一次Action操作就会产生一个Job,这些Jo原创 2022-04-19 14:54:44 · 1723 阅读 · 0 评论