pyspark：RDD简单操作，与文件读写

最新推荐文章于 2024-07-29 17:54:27 发布

Gadaite

最新推荐文章于 2024-07-29 17:54:27 发布

阅读量1.3k

点赞数 1

文章标签： spark big data scala

本文链接：https://blog.csdn.net/weixin_46408961/article/details/120399265

版权

#%%加载部分
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext("local")
spark = SparkSession(sc)

# %%
#count()返回数据集中的元素的个数
rdd = sc.parallelize([1,2,3,4,5])
rdd.count()
# %%
#first()返回首个元素，take()前几个元素
rdd.first()
rdd.take(3)

# %%
rdd.reduce(lambda a,b:a+b)#迭代
# %%
rdd.collect()
# %%
rdd.foreach(lambda elem:print(elem))#遍历输出
# %%
rdd = sc.textFile("/root/pythonlearn/word.txt")
# %%
lineslens = rdd.map(lambda rdd :len(rdd))
totallens = lineslens.reduce(lambda a,b:a+b)
print(totallens)
# %%
list = ["hadoop","spark","hive"]
rdd = sc.parallelize(list)
print(rdd.count())
print(",".join(rdd.collect()))

# %%
list = ["hadoop","spark","hive"]
rdd = sc.parallelize(list)
rdd.cache()#<==>rdd.persist(MEMORY_ONLY)#持久化操作
print(rdd.count())
print(",".join(rdd.collect()))#拼接
rdd.unpersist()
# %%
print(len(rdd.glom().collect()))
# %%
rddlens = rdd.repartition(2)
print(len(rddlens.glom().collect()))#glom()分区数

from pyspark import SparkContext,SparkConf, rdd
conf = SparkConf().setAppName("myapp").setMaster("local")
sc = SparkContext(conf=conf)
# %%
textfile = sc.textFile("/root/pythonlearn/word.txt")
textfile.first()
# %%
textfile.saveAsTextFile("/root/pythonlearn/writeback_word")

Gadaite

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspark：RDD简单操作，与文件读写

#%%from pyspark.context import SparkContextfrom pyspark.sql.session import SparkSessionsc = SparkContext("local")spark = SparkSession(sc)# %%#count()返回数据集中的元素的个数rdd = sc.parallelize([1,2,3,4,5])rdd.count()# %%#first()返回首个元素，take()前几个元素rdd.firs.
复制链接

扫一扫