实验四 Spark Streaming 基础编程

实验目的

1. 熟悉编写 Spark Streaming 程序处理流数据的方法。

实验内容

1. 实时统计贷款金额

模拟解决贷款金额的实时统计问题。假设某外企客户贷款金额数据如下(json 格式), 第一项是客户名称(“name”),第二项是客户贷款金额(“amount”)。

{"name":"Emma","amount":35000}

{"name":"Sophia","amount":40000}

{"name":"Joyce","amount":56000}

{"name":"Bob","amount":32000}

{"name":"Tom","amount":42000}

{"name":"Lucy","amount":72000}

{"name":"Jennifer","amount":22000}

{"name":"Marian","amount":91000}

{"name":"Loren","amount":38000}

{"name":"Lorraine","amount":42000}

{"name":"Emma","amount":22000}

{"name":"Jennifer","amount":41000}

{"name":"Emma","amount":45000}

{"name":"Loren","amount":66000}

     销售部为了实时掌握客户贷款信息,现要求研发人员开发一个系统,录入一到多条数据 就能立即计算出每个客户的总贷款金额。

实验步骤

如果你之前进行过spark的实验但是没有做过Spark Streaming的实验,那么你很大的可能是需要再下载netcat的,下载地址:https://eternallybored.org/misc/netcat/

配置请参考:https://blog.csdn.net/muriyue6/article/details/107127217

在安装配置完成之后打开一个cmd窗口,输入nc -l -p 9999(先将这条指令回车之后再运行代码,不然控制台会显示拒绝连接的错误)

 我使用的是pycharm

from pyspark.shell import spark
from pyspark.streaming import StreamingContext
import json

# 创建一个本地的StreamingContext对象,每5秒钟为一个批次
ssc = StreamingContext(spark.sparkContext, 5)

# 创建一个DStream,并从TCP socket接收数据
lines = ssc.socketTextStream("localhost", 9999)

# 解析JSON格式数据,并按照客户名称分组求和
json_data = lines.map(lambda x: json.loads(x))
customer_amounts = json_data.map(lambda x: (x['name'], x['amount']))
customer_totals = customer_amounts.reduceByKey(lambda x, y: x + y)

# 将结果输出到控制台
customer_totals.pprint()

# 启动StreamingContext
ssc.start()
ssc.awaitTermination()

在cmd窗口输入命令,并且回车之后就直接运行程序,在程序开始运行之后,就将需要用的数据直接粘贴到cmd窗口中,如果控制台只出现了时间,而没有出现需要用的的数据,可以尝试多粘贴几次数据(也可以尝试多等会),直到控制台出现需要的数据

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值