Spark排序求Top值

最新推荐文章于 2024-04-24 19:02:34 发布

zsj.python之路

最新推荐文章于 2024-04-24 19:02:34 发布

阅读量1.2k

点赞数 1

分类专栏：大数据文章标签： spark mapreduce

本文链接：https://blog.csdn.net/zhangshuaijun123/article/details/103541733

版权

大数据专栏收录该内容

15 篇文章

订阅专栏

from pyspark import SparkContext, SparkConf

conf = SparkConf().setMaster('local').setAppName('ReadHBase')
sc = SparkContext(conf=conf)
lines = sc.textFile("D://tydic_study\spark//num.txt")  # 存放文件的路径
result1 = lines.filter(lambda line: len(lines.strip()) > 0) and len(lines.strip(",") == 4)  # 将文件里面的元素生成列表
result2 = result1.map(lambda x: x.split(",")[2]) # 将第三列的元素提取出来
result3 = result2.map(lambda x: (int(x),""))  # 将获得的数据转化为int类型
result4 = result3.repartition(1)  # 将整个RDD分成一个分区
result5 = result4.sortByKey(False) # 根据Key进排序
result6 = result5.map(lambda x: x[0]) 
result7 = result6.take(5)
for a in result7:
    print(a)