pyspark使用

没用的阿吉bigdata

已于 2024-01-11 19:33:26 修改

阅读量335

点赞数 7

文章标签： linux 运维服务器

于 2024-01-11 19:28:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57736618/article/details/135537096

版权

本文介绍了如何在Spark3环境中设置pyspark环境变量，确保Python3版本兼容，并提供了一个创建SparkSession，生成数据，过滤操作以及添加SparkPython路径到sys.path的步骤。

摘要由CSDN通过智能技术生成

设置pyspark环境变量与你当前集群的环境一致，spark3的版本支持的python3

export PYSPARK_PYTHON=/usr/bin/python3.6
export PYSPARK_DRIVER_PYTHON=/usr/bin/python3.6

进入spark3的bin目录下

./pyspark

测试代码

from pyspark.sql import SparkSession

# 创建一个 SparkSession
spark = SparkSession.builder.appName("PySparkTest").getOrCreate()

# 生成测试数据
data = [("Alice", 25), ("Bob", 30), ("Catherine", 35)]
df = spark.createDataFrame(data, ["name", "age"])

# 显示 DataFrame 的内容
df.show()

# 对某个字段进行过滤操作
filtered_df = df.filter(df.age > 30)
filtered_df.show()

# 停止 SparkSession
spark.stop()

返回结果

你可以使用以下命令将spark python目录添加到sys.path中，然后在a.py文件中使用import语句导入需要的模块：

```shell
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9-src.zip:$PYTHONPATH
python a.py
```

这里假设SPARK_HOME是你的Spark安装目录。

其中，`$SPARK_HOME/python` 目录包含了所有的Python模块和包，而 `$SPARK_HOME/python/lib/py4j-0.10.9-src.zip` 是Py4j的源代码包。

当你执行 `python a.py` 命令时，a.py文件应该能够导入它所需要的模块，因为Spark Python目录已经被添加到了sys.path中。

没用的阿吉bigdata

关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

没用的阿吉bigdata CSDN认证博客专家 CSDN认证企业博客

码龄3年

3: 原创

97万+: 周排名

30万+: 总排名

1224: 访问

: 等级

49: 积分

20: 粉丝

18: 获赞

1: 评论

21: 收藏

私信

关注

热门文章

分类专栏

笔记

最新评论

HBase使用ImportTsv进行批量导入数据
CSDN-Ada助手: 恭喜你开始博客创作！标题中提到的使用ImportTsv进行批量导入数据的主题非常实用，我很期待能够阅读你的博客内容。作为下一步的创作建议，或许你可以深入探讨一些ImportTsv的使用技巧，比如如何处理数据格式、如何优化导入效率等方面。希望你能够保持谦虚的态度，继续分享你的技术经验，让更多读者受益。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。