余老师带你学习大数据-Spark快速大数据处理第八章第二节案例操作和分析

weixin_45810046

于 2020-11-19 10:52:42 发布

阅读量183

点赞数

分类专栏：余老师带你学习大数据-Spark快速大数据处理文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45810046/article/details/109802323

版权

余老师带你学习大数据-Spark快速大数据处理专栏收录该内容

64 篇文章 3 订阅

订阅专栏

Spark淘宝案例

Jupyter Spark调度模式

在这里插入图片描述

惰性求值与缓存

在这里插入图片描述

Spark求值相当于是转换的操作，这时的转换操作没有求值执行。只有有行动操作的时候，转化操作才会实实在在的执行，这时符合进入DAG进行大数据处理的模式。cache是缓存数据，下次执行sqlDF时不再执行查询操作，这时的cache并没有求值，只有在使用的时候才会求值。

Apache Arrow

在这里插入图片描述

上传程序

1、在app-11上，右侧打开Jupyter。
在这里插入图片描述

2、输入密码。Yhf_1018
在这里插入图片描述

3、上传程序，程序在GitHub中，可自行下载。一下是这次课程涉及到的程序文件及存放目录。
在这里插入图片描述

在这里插入图片描述

4、上传程序文件。点击Upload本地上传。
在这里插入图片描述

用户访问流量分布分析

day

代码讲解

在这里插入图片描述

创建Spark Session，定义Spark Session，Spark master是app-13提交的端口是7077。
读取CSV模式的文件，跳过header。Format是日期的方式，加载数据信息。创建视图，在视图之上就可以加载SQL语句。需要注意的是，这里没有使用SQL语句执行，直接在Spark中读取对应文件。

在这里插入图片描述

启用Apache Arrow。

在这里插入图片描述

按天查询流量信息，从taobai，taobai是之前创建的视图，对象都是spark，根据date排序。cache是将查询数据缓存。
在这里插入图片描述

创建View，使用SQL的方式出处理sqlDF2。

在这里插入图片描述

对数据类型转换，之所以将create_day转换为string，是因为Apache Arrow不支持create_day类型。
在这里插入图片描述

将sqlDF转为Pandas所识别的数据类型。创建完Pandas之后就可以画图了。

在这里插入图片描述

将sqlDF画成图，create_day为x轴，需要设定x轴时间的各式。将x轴的数据转成45°的角。

操作

1、在后台启动Jupyter打印。
命令：tailf /tmp/jupyter.log
注：这里可以查看Jupyter运行的过程。
在这里插入图片描述

2、点击运行，一步一步的进行，等上一步结束在进行下一步。
在这里插入图片描述

3、运行。
在这里插入图片描述

释放资源

每次做完运行都需要进行一次释放资源的操作。
1、返回Jupyter首页。
在这里插入图片描述

2、查看Running。
在这里插入图片描述

3、关闭pageViewByDate程序。
在这里插入图片描述

Hour

1、上传程序文件。
在这里插入图片描述

2、一步步运行。
在这里插入图片描述

3、释放资源。
在这里插入图片描述

客单量分析

这个指标反映了客户的购买能力。
1、上传程序。
在这里插入图片描述

2、运行，逐步运行。
在这里插入图片描述

3、释放资源。
在这里插入图片描述

代码解释

在这里插入图片描述

购买的数/用户的数=客单量。

商品分析

商品PV各环节转化率

在这里插入图片描述

点击转化收藏率为多少，然后由收藏转化为购物车，最后由购物车转化购买有多少。还可以有点击率转化为购买的转化率。

代码解释

在这里插入图片描述

统计商品的种类，有8916种。

在这里插入图片描述

计算有多少商品。

在这里插入图片描述

统计商品和商品成功购买的数量，根据数据统计量进行排序。这里只显示了前20行，商品id为303205878的购买数量是最多的，被购买了50次。这并不能说明什么，这50次可能是一个人一次购买了50个，也可能是30天中平均一天2次的购买量。现在还没有说服力。

在这里插入图片描述

SQL查询。

在这里插入图片描述

查询每个商品做pv，fav，cart，buy这一系列动作，然后通过这个数据在去统计相关的量。

在这里插入图片描述

查询做相关动作的数量。

在这里插入图片描述

保存DF。

在这里插入图片描述

将行变列，将对应的商品id，输出多个列，每一列是相应的pv，fav，cart，buy的数量。
保存缓存。null是没有对应的数量。

在这里插入图片描述

清理缓存。

Ratio

1、上传程序文件。
在这里插入图片描述

2、运行。

在这里插入图片描述

3、资源释放。
在这里插入图片描述

4、退出Jupyter后台，按Ctrl+C。

在这里插入图片描述
详细学习内容可观看Spark快速大数据处理扫一扫~~~或者引擎搜索Spark余海峰

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。