Pyspark综合案例（pyspark安装和java运行环境配置）

加油吧少年时代

已于 2023-09-12 17:39:19 修改

阅读量1.5k

点赞数

分类专栏： Python学习人工智能数据处理文章标签： java 开发语言 python

于 2023-09-12 13:38:48 首次发布

本文链接：https://blog.csdn.net/weixin_51293134/article/details/132829398

版权

Python学习同时被 3 个专栏收录

24 篇文章 0 订阅

订阅专栏

人工智能

17 篇文章 0 订阅

订阅专栏

数据处理

4 篇文章 0 订阅

订阅专栏

一、RDD对象

PySpark支持多种数据的输入，在输入完成后，都会得到一个：RDD类的对象

RDD全称为：弹性分布式数据集（Resilient Distributed Datasets）

PySpark针对数据的处理，都是以RDD对象作为载体，即：

数据存储在RDD内
各类数据的计算方法，也都是RDD的成员方法
RDD的数据计算方法，返回值依旧是RDD对象

PySpark的编程模型可以归纳为：准备数据到RDD -> RDD迭代计算 -> RDD导出为list、文本文件等，即：源数据 -> RDD -> 结果数据

二、Python数据容器转RDD对象

PySpark支持通过SparkContext对象的parallelize成员方法，将：list、tuple、set、dict、str转换为PySpark的RDD对象

PySpark也支持通过SparkContext入口对象，来读取文件，来构建出RDD对象。

代码案例：

"""
#通过PySpark代码加载数据，即数据输入
"""
from pyspark import SparkConf,SparkContext
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf = conf)

# 通过parallelize方法将Python对象加载到Spark内，成为RDD对象
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize((1, 2, 3, 4, 5))
rdd3 = sc.parallelize("abcdefg")
rdd4 = sc.parallelize({1, 2, 3, 4, 5})
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"})

# 如果要查看RDD里面有什么内容，需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

打印结果：

pyspark安装方法：

第一种方法时命令行安装：pip install pyspark；

第二种方式是直接在Pycharm进行安装，如下图所示；

安装完成后，运行代码出现缺少Java环境依赖，需要配置java运行环境才可以运行Pyspark导入报对象，配置环境的过程可以参考博客教程：

java 环境配置(详细教程)_java环境配置_多加点辣也没关系的博客-CSDN博客

JDK 8.0 的安装包已上传资源包，希望可以帮助到大家！

加油吧少年时代

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pyspark综合案例（pyspark安装和java运行环境配置）

对象的parallelize成员方法，将：list、tuple、set、dict、str转换为PySpark。PySpark的编程模型可以归纳为：准备数据到RDD -> RDD。JDK 8.0 的安装包已上传资源报，希望可以帮助到大家！第二种方式是直接在Pycharm进行安装，如下图所示；、文本文件等，即：源数据 -> RDD ->PySpark支持通过。RDD的数据计算方法，返回值依旧是。各类数据的计算方法，也都是RDD。入口对象，来读取文件，来构建出。全称为：弹性分布式数据集（针对数据的处理，都是以。
复制链接

扫一扫