pyspark安装文档

6 篇文章 0 订阅
2 篇文章 0 订阅

pyspark环境安装

一、python3环境安装

参考文档:pyspark安装

1、下载安装包
查看windows环境下python环境的版本,然后去官网下载对应的版本,tgz格式
在这里插入图片描述

生产环境下的python安装包,tgz格式,底层是C语言,没有编译过的。只能针对当前计算机,不能多台计算机互相拷贝。

https://www.python.org/ftp/python/3.6.4/

也可以使用wget命令接上面的网址直接下载

2、安装python可能用到的依赖:

yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel

3、解压和编译:

#如果遇到:configure: error: no acceptable C compiler found in $PATH
yum install gcc
# 解压到本地路径
tar -zxvf  Python-3.6.4.tgz 
# 进入目录
cd Python-3.6.4
# 编译
./configure --prefix=/opt/software/python364
# 3.7版本以上需要引入一个新的包libffi-devel,安装此包之后再次进行编译安装
yum install libffi-devel -y
# 安装,需要在Python目录中才能安装
make && make install

4、配置python3和pip3的软连接(快捷方式)

ln -s /opt/software/python3/bin/python3 /usr/bin/python3
ln -s /opt/software/python3/bin/pip3 /usr/bin/pip3

二、安装pyspark

1、更换pip源为豆瓣源

[root@single bin]# cd 
[root@single ~]# mkdir .pip/
[root@single ~]# cd .pip/
vi pip.conf
=====================================================
[global]
index-url=https://pypi.douban.com/simple
trusted-host = pypi.douban.com
=====================================================

2、pip安装pyspark

pip3 install pyspark
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PySpark 是 Apache Spark 的 Python API,提供了一种用 Python 编程语言来操作 Spark 的方式。本文将介绍 PySpark 的基本使用方法。 1. 安装 PySpark 要使用 PySpark,需要先安装 Spark 和 Python。Spark 的安装可以参考官方文档:https://spark.apache.org/downloads.html。安装完成后,需要将 Spark 的 bin 目录添加到系统环境变量中。 Python安装可以参考官方文档:https://www.python.org/downloads/。安装完成后,需要安装 PySpark 包,可以使用 pip 命令进行安装: ``` pip install pyspark ``` 2. 创建 SparkContext 在使用 PySpark 时,需要先创建 SparkContext,它是 Spark 的入口点,用于连接 Spark 集群。创建 SparkContext 的方法如下: ```python from pyspark import SparkContext sc = SparkContext("local", "PySpark Demo") ``` 其中,第一个参数是 Spark 集群的 URL,"local" 表示在本地运行,第二个参数是应用程序的名称。 3. 创建 RDD RDD(Resilient Distributed Dataset)是 Spark 的核心数据结构,它代表了一个分布式的、只读的数据集合。创建 RDD 的方法有多种,可以从文件、数据集、内存等多种数据源中创建。 从文件中创建 RDD: ```python rdd = sc.textFile("file.txt") ``` 从数据集中创建 RDD: ```python rdd = sc.parallelize([1, 2, 3, 4, 5]) ``` 从内存中创建 RDD: ```python rdd = sc.parallelize([(1, "apple"), (2, "banana"), (3, "orange")]) ``` 4. RDD 转换操作 RDD 支持多种转换操作,可以对 RDD 进行过滤、映射、聚合等操作,常用的转换操作包括: 过滤: ```python rdd.filter(lambda x: x % 2 == 0) ``` 映射: ```python rdd.map(lambda x: x * 2) ``` 聚合: ```python rdd.reduce(lambda x, y: x + y) ``` 5. RDD 行动操作 RDD 进行转换操作时,只是对 RDD 进行了一些计算,产生了新的 RDD,而不会触发实际的计算。只有当需要获取 RDD 中的数据时,才会触发行动操作,常用的行动操作包括: ```python rdd.collect() # 获取 RDD 中的所有数据 rdd.count() # 获取 RDD 中的数据个数 rdd.first() # 获取 RDD 中的第一个数据 rdd.take(5) # 获取 RDD 中的前 5 个数据 ``` 6. 关闭 SparkContext 在使用完 SparkContext 后,需要关闭它以释放资源: ```python sc.stop() ``` 以上就是 PySpark 的基本使用方法,更多详细内容可以参考官方文档:https://spark.apache.org/docs/latest/api/python/index.html。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值