Pyspark综合案例(pyspark安装和java运行环境配置)

一、RDD对象

PySpark支持多种数据的输入,在输入完成后,都会得到一个:RDD类的对象

RDD全称为:弹性分布式数据集(Resilient Distributed Datasets)

PySpark针对数据的处理,都是以RDD对象作为载体,即:

  • 数据存储在RDD内
  • 各类数据的计算方法,也都是RDD的成员方法
  • RDD的数据计算方法,返回值依旧是RDD对象

40cb420610664ebc8eed66760c45c62b.png

        PySpark的编程模型可以归纳为:准备数据到RDD -> RDD迭代计算 -> RDD导出为list、文本文件等,即:源数据 -> RDD -> 结果数据

二、Python数据容器转RDD对象

        PySpark支持通过SparkContext对象的parallelize成员方法,将:list、tuple、set、dict、str转换为PySpark的RDD对象

3679f65e4a844246bd4cdae1dcba74cf.png

         PySpark也支持通过SparkContext入口对象,来读取文件,来构建出RDD对象。

fc7f66772cdf441a8a7cf77a8bcdcc0b.png

代码案例:

"""
#通过PySpark代码加载数据,即数据输入
"""
from pyspark import SparkConf,SparkContext
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf = conf)

# 通过parallelize方法将Python对象加载到Spark内,成为RDD对象
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize((1, 2, 3, 4, 5))
rdd3 = sc.parallelize("abcdefg")
rdd4 = sc.parallelize({1, 2, 3, 4, 5})
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"})

# 如果要查看RDD里面有什么内容,需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

打印结果:

8acffe7a3ba04323a5d04dac1d4d86e0.png

pyspark安装方法 :

第一种方法时命令行安装:pip install pyspark;

第二种方式是直接在Pycharm进行安装,如下图所示;

a231807459f74d538bd57dcef43b4058.png

33537244fa3f43548a6c773a47d30627.png

        安装完成后,运行代码出现缺少Java环境依赖,需要配置java运行环境才可以运行Pyspark导入报对象,配置环境的过程可以参考博客教程:

java 环境配置(详细教程)_java环境配置_多加点辣也没关系的博客-CSDN博客

JDK 8.0 的安装包已上传资源包,希望可以帮助到大家!

f0c9da8980984f24bac46648ed89e3e4.gif

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在配置PySpark之前,您需要确保已经正确配置了Java环境。以下是配置Java环境的步骤: 1. 下载Java Development Kit(JDK):访问Oracle官方网站,下载适用于您操作系统的JDK版本。确保选择与您操作系统和计算机架构(32位或64位)相匹配的版本。 2. 安装JDK:运行JDK安装程序,并按照提示进行安装安装完成后,Java将被安装在默认目录中。 3. 配置环境变量:在Windows操作系统中,右键单击“我的计算机”(或“此电脑”),选择“属性”,然后点击“高级系统设置”。在弹出的窗口中,点击“环境变量”按钮。在“系统变量”部分,找到名为“Path”的变量,并点击“编辑”按钮。在变量值的末尾添加Java安装目录的路径(例如:C:\Program Files\Java\jdk1.8.0_221\bin)。点击“确定”保存更改。 4. 验证Java安装:打开命令提示符(Windows键+R,输入cmd并按Enter键),输入“java -version”命令。如果成功显示Java版本信息,则表示Java环境已经正确配置。 完成了Java环境的配置后,您可以开始配置PySpark环境。以下是配置PySpark环境的步骤: 1. 安装Python:如果您还没有安装Python,请访问Python官方网站,下载并安装适用于您操作系统的Python版本。 2. 安装PySpark:使用pip命令安装PySpark。在命令提示符中运行以下命令: ``` pip install pyspark ``` 3. 配置环境变量:在Windows操作系统中,右键单击“我的计算机”(或“此电脑”),选择“属性”,然后点击“高级系统设置”。在弹出的窗口中,点击“环境变量”按钮。在“系统变量”部分,点击“新建”按钮。输入变量名为“SPARK_HOME”,变量值为PySpark安装目录的路径(例如:C:\spark)。点击“确定”保存更改。 4. 验证PySpark安装:打开命令提示符,输入“pyspark”命令。如果成功启动PySpark的交互式Shell,则表示PySpark环境已经正确配置。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

加油吧少年时代

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值