Spark排序求Top值

from pyspark import SparkContext, SparkConf

conf = SparkConf().setMaster('local').setAppName('ReadHBase')
sc = SparkContext(conf=conf)
lines = sc.textFile("D://tydic_study\spark//num.txt")  # 存放文件的路径
result1 = lines.filter(lambda line: len(lines.strip()) > 0) and len(lines.strip(",") == 4)  # 将文件里面的元素生成列表
result2 = result1.map(lambda x: x.split(",")[2]) # 将第三列的元素提取出来
result3 = result2.map(lambda x: (int(x),""))  # 将获得的数据转化为int类型
result4 = result3.repartition(1)  # 将整个RDD分成一个分区
result5 = result4.sortByKey(False) # 根据Key进排序
result6 = result5.map(lambda x: x[0]) 
result7 = result6.take(5)
for a in result7:
    print(a)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值