Python---pyspark的安装，执行入口，编程模型、RDD对象、数据输入

三月七꧁ ꧂

已于 2023-05-12 17:19:17 修改

阅读量888

点赞数 1

分类专栏：初识python 文章标签： python 开发语言 pycharm 数据分析

于 2023-04-27 17:33:53 首次发布

本文链接：https://blog.csdn.net/weixin_43961909/article/details/130411472

版权

初识python 专栏收录该内容

40 篇文章 1 订阅

订阅专栏

1. pyspark的安装

同其它的Python第三方库一样，PySpark同样可以使用pip程序进行安装。

在”CMD”命令提示符程序内，输入：

pip install pyspark

或使用国内代理镜像网站（清华大学源）

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

2. pyspark的执行入口

要构建SparkContext对象作为执行入口

PySpark的功能都是从SparkContext对象作为开始

3. PySpark的编程模型

数据输入：通过SparkContext完成数据读取

数据计算：读取到的数据转换为RDD对象，调用RDD的成员方法完成计算

数据输出：调用RDD的数据输出相关成员方法，将结果输出到list、元组、字典、文本文件、数据库等

4. 获取PySpark的执行环境入库对象：SparkContext

# 导包
from pyspark import SparkConf, SparkContext
# 创建SparkConf类对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark_app")
# 基于SparkConf类对象创建SparkContext对象
sc = SparkContext(conf=conf)
# 打印PySpark的运行版本
print(sc.version)
# 停止SparkContext对象的运行（停止PySpark程序）
sc.stop()

5. RDD对象

RDD对象称之为分布式弹性数据集，是PySpark中数据计算的载体，它可以：

提供数据存储

提供数据计算的各类方法

数据计算的方法，返回值依旧是RDD（RDD迭代计算）后续对数据进行各类计算，都是基于RDD对象进行

6. 输入数据到Spark（即得到RDD对象）

通过SparkContext的parallelize成员方法，将Python数据容器转换为RDD对象

通过SparkContext的textFile成员方法，读取文本文件得到RDD对象

7. 数据输入：通过PySpark代码加载数据

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# # 通过parallelize方法将Python对象加载到Spark内，成为RDD对象
# rdd1 = sc.parallelize([1, 2, 3, 4, 5])
# rdd2 = sc.parallelize((1, 2, 3, 4, 5))
# rdd3 = sc.parallelize("abcdefg")
# rdd4 = sc.parallelize({1, 2, 3, 4, 5})
# rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"})
#
# # 如果要查看RDD里面有什么内容，需要用collect()方法
# print(rdd1.collect())
# print(rdd2.collect())
# print(rdd3.collect())
# print(rdd4.collect())
# print(rdd5.collect())

# 用过textFile方法，读取文件数据加载到Spark内，成为RDD对象
rdd = sc.textFile("D:/hello.txt")
print(rdd.collect())
rdd.map()
sc.stop()

（日常美图时间）

三月七꧁ ꧂

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python---pyspark的安装，执行入口，编程模型、RDD对象、数据输入

迭代计算）后续对数据进行各类计算，都是基于RDD。7. 数据输入：通过PySpark代码加载数据。数据输入：通过SparkContext。或使用国内代理镜像网站（清华大学源）的数据输出相关成员方法，将结果输出到。的parallelize成员方法，将。数据计算：读取到的数据转换为RDD。数据计算的方法，返回值依旧是RDD。、元组、字典、文本文件、数据库等。对象称之为分布式弹性数据集，是。通过SparkContext的。成员方法，读取文本文件得到。提供数据计算的各类方法。数据输出：调用RDD。
复制链接

扫一扫