CTGU三峡大学spark算子简单案例 - Python

文章介绍了如何使用ApacheSpark的SparkContext在Python中实现词频统计(WordCount)和好友推荐(FriendRecommendation)算法,分别处理文本文件中的词频和间接好友数量计算。
摘要由CSDN通过智能技术生成

第1关:WordCount - 词频统计

# -*- coding: UTF-8 -*-
from pyspark import SparkContext

if __name__ == "__main__":

    """
        需求:对本地文件系统URI为:/root/wordcount.txt 的内容进行词频统计
    """
    # ********** Begin **********#
    sc = SparkContext("local","app");
    rdd = sc.textFile("/root/wordcount.txt")
    li = rdd.flatMap(lambda x : str(x).split(" ")).map(lambda x : (x,1)).reduceByKey(lambda x,y:x + y).sortBy(lambda x : x[1],False).collect();
    print(li)

    # ********** End **********#

第2关:Friend Recommendation - 好友推荐

# -*- coding: UTF-8 -*-
from pyspark import SparkContext


# ********** Begin **********#
def hashWord(a, b):
    if hash(a) > hash(b):
        return a + "_" + b
    return b + "_" + a


def f(line):
    a = str(line).split(" ")
    n = len(a)
    b = []
    for i in range(1, n):
        b.append((hashWord(a[0], a[i]), 0))
        for j in range(i + 1, n):
            b.append((hashWord(a[i], a[j]), 1))

    #print(b)
    return b


# ********** End **********#

if __name__ == "__main__":
    """
        需求:对本地文件系统URI为:/root/friend.txt 的数据统计间接好友的数量
    """
    # ********** Begin **********#
    sc = SparkContext('local', 'Simple App')

    rdd = sc.textFile("/root/friend.txt")

    li = rdd.flatMap(f).reduceByKey(lambda x, y: 0 if x == 0 or y == 0 else x + y).filter(lambda x: x[1] > 0).collect()

    print(li)

# ********** End **********#

  • 10
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值