【Python数据分析】电商交易数据分析

本文通过分析电商交易数据,了解业务场景,进行数据清洗和初步分析。主要涉及订单重复值检查、数值异常处理、缺失值填充、日期类型转换、数据切片与分组等操作。分析了商品销量、销售额、城市分布、价格区间、渠道占比、支付时间及月成交额等关键指标,旨在提升数据分析能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分析目的:
通过分析一份电商交易数据, 熟悉电商的常见的业务场景, 分析维度和指标, 为以后从事相关工作积累经验

  1. 加载数据, 使用 head 方法查看前5条数据, 初步浏览数据基本内容。

在这里插入图片描述
2. 加载数据后, 先使用 describe 和 info 方法看下数据的大概分布情况。可以得到数据的一些描述性统计值,如每一列的条数、均值、最大值、最小值等等,还发现一些列的数据问题,比如productId最小值为0、payMoney最小值是负数、channelId有缺失值、为了方便后续分析,createTime和payTime还需要进行数据类型转换。

在这里插入图片描述
3. 开始进行数据清洗
#order_id,因为订单号是唯一的,所以要看看有无重复值,并删除,再回头看一下。

df[df['orderId'].duplicated()]
df.drop(df[df['orderId'].duplicated()].index,inplace=True)
df[df['orderId'].duplicated()] # 查看一下

#userId,因为一个用户可能有多个订单,所以userId可能存在重复值是合理的。

#productId,同理一个商品出现在多个订单中也是合理的,所以有重复值是正常的,但是商品id一般不为0,所以需要查看一下相应记录。发现存在不少,删除处理。

df[df['productId']==0]
df.drop(df[df.productId==
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值