spark wordcount 实现中 python 与 scala 的对比

前言

学习spark已经有一段时间了,当时是用python做数据处理,接口封装的还不是那么好,于是使用了pyspark。使用了之后发现有些错误不能有效追踪,于是学习了scala。
这篇文章是简单对比一下两种语言的的spark开发的异同点。

pyspark实现
conf = SparkConf()
sc = SparkContext(conf=conf)
counts = sc.textFile(sys.argv[1]).\
    map(lambda x:x.split("\t")).\
    map(lambda x:(x[5],1)).\
    reduceByKey(lambda x,y:x+y).\
    map(lambda x:(x[1],x[0])).sortByKey(False).\
    map(lambda x:(x[1],x[0])).take(5)
scala 实现
 val sparkConf = new SparkConf().setMaster("local").setAppName("SparkWordCountApp")
    val sc = new SparkContext(sparkConf)
    val rdd = sc.textFile("")
     rdd.flatMap((x)=>x.split(",")).
      map((x)=>(x,1)).reduceByKey(_+_).
      map(x=>(x._2,x._1)).sortByKey().
      map(x=>(x._2,x._1))
      .collect().foreach(println)

单纯的以简单程度来说两只语言是差别不大的,写法上也很相似。如果具体说区别的话,就是两种语言map方法里的匿名函数书写不同。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值