使用PySpark处理数据

最新推荐文章于 2024-07-20 00:19:29 发布

程序员进化者

最新推荐文章于 2024-07-20 00:19:29 发布

阅读量1k

点赞数

分类专栏：大数据 Python 文章标签：大数据 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wh672843916/article/details/111824205

版权

Python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

使用PySpark处理数据

文章目录

使用PySpark处理数据
一、数据准备
二、用户点击率
三、用户点击率
踩雷点

一、数据准备

本文主要是做为一个PySpark的入手实例来做，数据来源网络。主要用到两个数据文件：action.txt，document.txt。下表为action.txt，数据格式：userid-docid-behaivor-time-ip，即：用户编码-文档编码-行为-日期-IP地址
在这里插入图片描述
下表为document.txt，数据格式：docid-channelname-source-keyword:score，即：文档编码-类别（大类）-主题（细类）-关键词：权重

二、用户点击率

用户点击率即为action.txt文件中每个用户behaivor列中1的数量除以0的数量。

1.创建SparkSession对象

在这里插入图片描述

2.读取拆分数据

将数据根据‘~’拆分，获取userid和behavior两列
在这里插入图片描述

3.统计用户的各类行为数

在这里插入图片描述

4.转为DataFrame格式

将userid,behavior和数量取出作为3列，并转为DataFrame格式
在这里插入图片描述

5.behavior列处理

根据userId进行分组，将behavior列数据进行旋转作为列标数值为cnt。并将behavior的0和1替换为“browse”和”click”。
在这里插入图片描述

6.填充缺失值

在这里插入图片描述

7.将计算的数据作为新列添加到数据

在这里插入图片描述

8.保存、关闭

将最后处理的数据保存到本地，关闭SparkSession
在这里插入图片描述
最后保存到本地的数据为多个文件，每个文件的格式如下：

三、用户点击率

使用主题（细类）给用户打标签

1.读取数据

读取docunment.txt，获取docid、source两列，即文档编码和主题（细类）两列
在这里插入图片描述

2.创建两个DataFrame的临时视图

在这里插入图片描述

3.进行关联查询

在这里插入图片描述

4.保存、关闭

将最后处理的数据保存到本地，关闭SparkSession
在这里插入图片描述
导出后的数据如下：

踩雷点

1、代码开发时，可以每个操作跟一个action，方便查看数据，跑批的时候不需要每个都跟，只需要最后一个action，否则会给机器增加很多工作量。
2、中间过程生成的DataFrame必须先建立临时视图，后面才能使用，否则会报错。

程序员进化者

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
使用PySpark处理数据

使用PySpark做用户画像文章目录使用PySpark做用户画像一、数据准备二、用户点击率1.创建SparkSession对象2.读取数据，将数据根据‘~’拆分，获取userid和behavior两列3.统计用户的各类行为数4.将userid,behavior和数量取出作为3列，并转为DataFrame格式5.根据userId进行分组，将behavior列数据进行旋转作为列标数值为cnt。并将behavior的0和1替换为“browse”和”click”。6.填充缺失值7.将计算的数据作为新列添加到数据8
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。