PySpark 数据输入

本文介绍了如何在Spark中创建RDD对象,包括使用`SparkConf`和`SparkContext`,以及通过`parallelize`方法将Python对象转换为RDD,展示了不同类型的数据如列表、元组、字符串、集合和字典的处理,并使用`collect`方法查看内容。还提及了如何从文件读取数据转换为RDD。
摘要由CSDN通过智能技术生成

RDD对象

数据容器·转换为RDD对象

# 创建SparkConf 类对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
# 拿到执行环境入口对象
sc = SparkContext(conf=conf)

# 通过parallelize 方法将python对象加载到spark内,成为RDD对象
rdd1 = sc.parallelize([1,2,3,4,5]) # 列表
rdd2 = sc.parallelize((1,2,3,4,5)) # 元组
rdd3 = sc.parallelize("abcdef") # 字符串
rdd4 = sc.parallelize({1,2,3,4,5}) # 集合
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"}) # 字典

# 如果要查看rdd对象里的内容,需要用collect() 方法
print(rdd1.collect())  # 输出[1, 2, 3, 4, 5]
print(rdd2.collect())  # 输出[1, 2, 3, 4, 5]
print(rdd3.collect())  # 输出['a', 'b', 'c', 'd', 'e', 'f']
print(rdd4.collect())  # 输出[1, 2, 3, 4, 5]
print(rdd5.collect())  # 输出['key1', 'key2']

sc.stop()

读取文件转RDD对象

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值