pyspark:RDD简单操作,与文件读写

#%%加载部分
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext("local")
spark = SparkSession(sc)

# %%
#count()返回数据集中的元素的个数
rdd = sc.parallelize([1,2,3,4,5])
rdd.count()
# %%
#first()返回首个元素,take()前几个元素
rdd.first()
rdd.take(3)

# %%
rdd.reduce(lambda a,b:a+b)#迭代
# %%
rdd.collect()
# %%
rdd.foreach(lambda elem:print(elem))#遍历输出
# %%
rdd = sc.textFile("/root/pythonlearn/word.txt")
# %%
lineslens = rdd.map(lambda rdd :len(rdd))
totallens = lineslens.reduce(lambda a,b:a+b)
print(totallens)
# %%
list = ["hadoop","spark","hive"]
rdd = sc.parallelize(list)
print(rdd.count())
print(",".join(rdd.collect()))

# %%
list = ["hadoop","spark","hive"]
rdd = sc.parallelize(list)
rdd.cache()#<==>rdd.persist(MEMORY_ONLY)#持久化操作
print(rdd.count())
print(",".join(rdd.collect()))#拼接
rdd.unpersist()
# %%
print(len(rdd.glom().collect()))
# %%
rddlens = rdd.repartition(2)
print(len(rddlens.glom().collect()))#glom()分区数
from pyspark import SparkContext,SparkConf, rdd
conf = SparkConf().setAppName("myapp").setMaster("local")
sc = SparkContext(conf=conf)
# %%
textfile = sc.textFile("/root/pythonlearn/word.txt")
textfile.first()
# %%
textfile.saveAsTextFile("/root/pythonlearn/writeback_word")

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值