CTGU三峡大学spark算子简单案例 - Python

123456msk

于 2024-01-17 16:18:23 发布

阅读量504

点赞数 10

分类专栏：大数据技术与应用文章标签： python spark 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_67613621/article/details/135653631

版权

大数据技术与应用专栏收录该内容

4 篇文章

订阅专栏

文章介绍了如何使用ApacheSpark的SparkContext在Python中实现词频统计（WordCount）和好友推荐（FriendRecommendation）算法，分别处理文本文件中的词频和间接好友数量计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

第1关：WordCount - 词频统计
第2关：Friend Recommendation - 好友推荐

第1关：WordCount - 词频统计

# -*- coding: UTF-8 -*-
from pyspark import SparkContext

if __name__ == "__main__":

    """
        需求：对本地文件系统URI为：/root/wordcount.txt 的内容进行词频统计
    """
    # ********** Begin **********#
    sc = SparkContext("local","app");
    rdd = sc.textFile("/root/wordcount.txt")
    li = rdd.flatMap(lambda x : str(x).split(" ")).map(lambda x : (x,1)).reduceByKey(lambda x,y:x + y).sortBy(lambda x : x[1],False).collect();
    print(li)

    # ********** End **********#

第2关：Friend Recommendation - 好友推荐

# -*- coding: UTF-8 -*-
from pyspark import SparkContext


# ********** Begin **********#
def hashWord(a, b):
    if hash(a) > hash(b):
        return a + "_" + b
    return b + "_" + a


def f(line):
    a = str(line).split(" ")
    n = len(a)
    b = []
    for i in range(1, n):
        b.append((hashWord(a[0], a[i]), 0))
        for j in range(i + 1, n):
            b.append((hashWord(a[i], a[j]), 1))

    #print(b)
    return b


# ********** End **********#

if __name__ == "__main__":
    """
        需求：对本地文件系统URI为：/root/friend.txt 的数据统计间接好友的数量
    """
    # ********** Begin **********#
    sc = SparkContext('local', 'Simple App')

    rdd = sc.textFile("/root/friend.txt")

    li = rdd.flatMap(f).reduceByKey(lambda x, y: 0 if x == 0 or y == 0 else x + y).filter(lambda x: x[1] > 0).collect()

    print(li)

# ********** End **********#

博客等级

码龄3年

12
原创

143
点赞

159
收藏

727
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: CTGU三峡大学军用大数据 - 结构化数据分析与处理

下一篇：: CTGU三峡大学Spark算子 - Python

最新评论

三峡大学操作系统课程设计实验3-线程与同步
tlx666hh: ticks_blocked加在哪个文件夹里面
三峡大学操作系统课程设计实验2-体验真实的操作系统
2401_83484538: 神！自己研究一下午没做完项目2
第1关：使用C/C++语言编写PL/0编译程序的语法分析程序
CSDN-Ada助手: 推荐 C 技能树：https://edu.csdn.net/skill/c?utm_source=AI_act_c
CTGU三峡大学军用大数据 - 结构化数据分析与处理
CSDN-Ada助手: 恭喜您撰写了第8篇博客！标题“CTGU三峡大学军用大数据 - 结构化数据分析与处理”听起来非常有深度和专业性。您的文章内容一定经过了认真的研究和分析，非常值得称赞。在您未来的创作中，我建议您可以进一步探索和讨论如何将结构化数据分析与处理应用于军用大数据领域的实际案例，以便读者能更直观地理解其实际应用和价值。同时，您也可以考虑加入一些数据可视化的技巧和工具，以提升读者对您所讲述的内容的理解和兴趣。再次恭喜您，并期待您未来更多有关军用大数据的精彩博客！
CTGU三峡大学企业spark案例 —— 出租车轨迹分析(Python)
CSDN-Ada助手: 恭喜您撰写第7篇博客！标题中提到的CTGU三峡大学企业spark案例的出租车轨迹分析(Python)听起来非常有趣。我很高兴看到您在持续创作，并分享关于数据分析的实用案例。对于下一步的创作建议，我谦虚地建议您可以考虑添加更多关于数据处理和可视化的技术细节。这将有助于读者更好地理解您的分析过程，并能够尝试在他们自己的项目中应用类似的方法。另外，如果您能够分享一些在实际应用中遇到的挑战以及如何解决它们的经验，这将使您的博客更加丰富和实用。再次恭喜您，并期待看到更多精彩的博客内容！继续努力！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。