Pyspark-数据输出-输出为python对象

目录

数据输出

collect算子

reduce算子 

 take 算子

count算子


数据输出

python对象或文件 变成 RDD  这是数据输入

RDD 自己计算计算 ,再将RDD 在输出成python对象或文件

collect算子

reduce算子 

# 导包
from pyspark import SparkConf, SparkContext
#Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
# 就是代码没有准确的找到python解释器
import os
os.environ["PYSPARK_PYTHON"] = "D:/APP/Anaconda/envs/teat1/python.exe"

# 创建SparkConf 类对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
# 拿到执行环境入口对象
sc = SparkContext(conf=conf)

# 通过parallelize 方法将python对象加载到spark内,成为RDD对象
rdd = sc.parallelize([1, 2, 2, 2, 5]) # 列表
# reduce算子,对RDD进行两两聚合
num = rdd.reduce(lambda a, b: a+b)

print(num)
# 12



 take 算子

count算子

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值