python项目--O2O优惠券线下使用情况数据分析

  1. 数据规整处理
  2. 数据分析

准备工作

  • 首先导入包和数据。然后查看数据的整体信息,观察以下结果
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns  # 绘图模块,基于matplotlib可视化的python包,不能完全替代matplotlib,只是对mpl进行升级
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示符号

# parse_dates:将指定的列加载成日期的格式
offline = pd.read_csv('D:\Download\Microsoft Edge\数据分析实战项目资料\O2O\资料\ccf_offline_stage1_train.csv', parse_dates=['Date_received', 'Date'])
print(offline.info())  # 175+万条数据
print(offline.head(10))  # NaT:时间日期格式的空值
  • 输出结果为:
    在这里插入图片描述
    在这里插入图片描述
    结果运行出来后,进行数据清洗。

数据规整

  • 分析:判断每一列当中有多少个空值,优惠券id,折扣率,领券日期,三者可能存在同时==null的情况
  • Discount_rate列中的满减政策转换成折扣率
  1. 先填充空值
  2. 200:20替换成比例,计算折扣率
offline['Discount_rate'] = offline['Discount_rate'].fillna('null')

def discount_rate_opt(s):  # s代表每一个元素
    if ':' in s:
        split = s.split(':')
        discount_rate = (int(split[0]) - int(split[1]))/int(split[0])
        return round(discount_rate, 2)  # 折扣率保留两位小数
    elif s == 'null':
        return np.NaN
    else:
        return float(s)

# map对这个变量数据里的每一个值都进行同一种操作
offline['Discount_rate'] = offline['Discount_rate'].map(discount_rate_opt)
print(offline['Discount_rate'].head())

结果:
在这里插入图片描述

  • 分析:Coupon_id字段:null代表无优惠券,此时Discount_rateDate_received字段无意义。检查Coupon_idDiscount_rateDate_received判断空值和非空值是否一一对应。np.all():判断一个课迭代数据中是否都为True,如果是返回True,否则返回False
nan1 = offline['Coupon_id'].isnull()  #判断优惠券是否为空
nan2 = offline['Date_received'].isnull()   #判断领券日期是否为空
print(np.all(nan1 == nan2))
nan3 = offline['Discount_rate'].isnull()   #判断折扣率是否为空
print(np.all(nan1 == nan3))

分析:如果结果=true,说明之前的猜测:Coupon_idDate_received空值与非空值是一一对应的关系;如果结果=true,说明之前的猜测:Coupon_idDiscount_rate空值与非空值是一一对应的关系
结果:
在这里插入图片描述

  • 进一步将消费者分成四类
cpon_no_consume = offline[offline['Date'].isnull() & offline['Coupon_id'].notnull()]
no_cpon_no_consume = offline[offline['Date'].isnull() & offline['Coupon_id'].isnull()]
no_cpon_consume = offline[offline['Date'].notnull() & offline['Coupon_id'].isnull()]
cpon_consume = offline[offline['Date'].notnull() & offline['Coupon_id'].notnull()]
print('有优惠券未消费:{}'.format(len(cpon_no_consume)))
print('无优惠券未消费:{}'.format(len(no_cpon_no_consume)))
print('无优惠券有消费:{}'.format(len(no_cpon_consume)))
print('有优惠券有消费:{}'.format(len(cpon_consume)))

结果:
在这里插入图片描述
分析:用优惠券消费的有7w,相比其他用户来说,占比较少

数据分析

  1. 分析店面流量是否火爆的影响因素
  • 绘制饼图占比:先要得到df类型的数据,再将消费方式绘制成饼图
consume_status_dict = {'cpon_no_consume': len(cpon_no_consume), 'no_cpon_consume': len(no_cpon_consume), 'cpon_consume': len(cpon_consume)}
consume_status = pd.Series(consume_status_dict)
print(consume_status)
fig, ax = plt.subplots(1, 1, figsize=(8, 10))
consume_status.plot.pie(ax=ax,
                        autopct='%1.1f%%',  # 保留小数的占比情况
                        shadow=True,  # 加阴影
                        explode=[0.02, 0.05, 0.02],  # 各个参数间隔出来
                        textprops={'fontsize': 15, 'color': 'blue'},  # 字体字号颜色
                        wedgeprops={'linewidth': 1, 'edgecolor': 'black'},  # 边界线的宽度颜色
                        labels=['有优惠券未消费 \n ({})'.format(len(cpon_no_consume)),
                                '无优惠券有消费 \n ({})'.format(len(no_cpon_consume)),
                                '有优惠券有消费 \n ({})'.format(len(cpon_consume))
                                ]
                        )
ax.set_ylabel('')  # 取去掉None
ax.set_title('消费的占比情况')  # 加标题
plt.legend(labels=['有优惠券未消费', '无优惠券有消费', '有优惠券有消费'])  # 加图例
plt.show()

结果:
在这里插入图片描述

分析:有优惠券未消费占比55.7%最大,说明大多数人拿完券之后,尚未使用;无优惠券有消费用户占比40%,说明很多人没有使用优惠券,可能优惠券的吸引力不大,客户没在意;可能新用户比较多优惠券有消费用户占比较小4.3%,说明我们的优惠券使用率不高,可以考虑是不是加大优惠券力度

  1. 分析顾客的消费习惯
  • 在有券消费人群中,分析距离和优惠折扣;计算各个商家对应的顾客到店平均距离
Merchant_distance = cpon_consume.groupby('Merchant_id')['Distance'].mean()
print(Merchant_distance[Merchant_distance == 0])
# 距离值乘以500

结果:
在这里插入图片描述
分析:有4076个商家,有1431个商家的用券消费用户平均范围在500米以内

  • 各商家对应的顾客到店消费平均折扣力度
erchant_distance_rate = cpon_consume.groupby('Merchant_id')['Discount_rate'].mean()
print(Merchant_distance_rate.sort_values())
Merchant_distance_rate.hist()  # 绘制直方图,看折扣力度所在范围
print(Merchant_distance_rate.mean())
plt.show()

结果:在这里插入图片描述
分析:大部分商家的折扣集中到0.8~1.0之间,所有商家平均折扣的平均值:0.88,折扣力度不是很大

  • 持券到店消费人数最多的商家:对商家进行分组,取出用户id,对用户id进行去重统计数量
popular_merchant = cpon_consume.groupby('Merchant_id')['User_id'].apply(lambda x: len(x.unique())).sort_values(ascending=False)
popular_merchant500 = popular_merchant[popular_merchant > 500]  # 找出持券消费人数>500的商家id
popular_merchant500.name = 'customer_count'  # 指定列明为消费者数量(持券消费者)
print(len(popular_merchant500))
print(popular_merchant500)

结果:
在这里插入图片描述
分析:共有16家店铺,持券消费人数在500人以上;持券消费人数最多的商家是5341,持券消费人数在2800;排名最后的商家,持券消费人数是559人;这批商家对优惠券的使用方法得当,消费者喜欢使用优惠券进行消费,可以适当借鉴这批商家的推广力度

  • 持券消费人数在500人以上的商家,链接顾客到店平均距离和平均折扣力度
merchant_pop_dis = pd.merge(left=popular_merchant500, right=Merchant_distance,on='Merchant_id', how='inner')
merchant_pop_dis_rate = pd.merge(left=merchant_pop_dis, right=Merchant_distance_rate,on='Merchant_id', how='inner')
print(merchant_pop_dis_rate)

结果:
在这里插入图片描述

  • 计算到店消费人数和平均距离和折扣力度的相关系数:corr(correlation:相关系数),用来计算df数据中列与列的相关性(皮尔逊相关系数)取值范围[-1,1]之间;1:完全正相关,-1:完全负相关;绝对值越大,相关性越大,反之成立;正相关:随着变量的增大而增大,反之同理;负相关:随着变量的增大而减小,反之同理;持券消费人数与距离和折扣率都呈现负相关,属于生活中的正常现象
# 用热力图展示相关系数(data:相关系数,annot:显示相关系数的值,cmap:颜色范围,vmax:最大值,vmin:最小值)
sns.heatmap(data=merchant_pop_dis_rate.corr(), annot=True, cmap='RdPu', vmax=1, vmin=-1)
plt.show()

结果:
在这里插入图片描述
分析:由图可知,0<线性相关程度极弱<0.3<0.31<低度相关<0.5;1.到店消费人数的多少与顾客到店铺之间的距离之间呈现负相关,相关系数0.31,在0.3~0.5之间,为低度相关;2.到店消费人数多少与优惠打折力度呈现负相关,相关系数0.2,在0~0.3之间,为相关系数极弱;综上所述,这些店家之所以火爆,应该是物美价廉导致,与距离和优惠力度相关性不大

  1. 分析投放的优惠券的使用情况
  • 分析每天优惠券的总体发放量与使用量情况:业务分析:日期(优惠券的发放日期Date_received,使用日期Date)用作图标的x
  • 需要统计每天优惠券发放数量和使用数量,取出存在消费日期的记录,进行升序,再去重;取出存在领券日期的记录,进行升序,再去重
print('消费数量 %d' % offline['Date'].notnull().sum())
print('发送优惠券', offline['Date_received'].notnull().sum())
date_sort = offline[offline['Date'].notnull()]['Date'].sort_values().unique()
print(date_sort[:5])
date_received_sort = offline[offline['Date_received'].notnull()]['Date_received'].sort_values().unique()
print(date_sort[:5])

结果:
在这里插入图片描述

  • 绘制每天的发券量和用券量
# 每天优惠券的使用量(即持券消费人数)
consume_num_everyday = cpon_consume[['User_id', 'Date_received']]
consume_num_everyday = consume_num_everyday.groupby('Date_received').count()
consume_num_everyday = consume_num_everyday.rename(columns={'User_id': 'count'})
# 每天发放的优惠券数量(取出所有领券日期!=null的数据,在进行天数分组,计数就可以)
coupon_sendout_everyday = offline[offline['Date_received'].notnull()][['Date_received', 'User_id']]
coupon_sendout_everyday = coupon_sendout_everyday.groupby('Date_received').count()
coupon_sendout_everyday = coupon_sendout_everyday.rename(columns={'User_id': 'count'})
# 绘制每天的发券量和用券量
plt.figure(figsize=(18, 6))
plt.bar(x=date_received_sort, height=coupon_sendout_everyday['count'], label='每天发券量')
plt.bar(x=date_received_sort, height=consume_num_everyday['count'], label='每天用券量')
# 对y轴进行对数缩放--量级相差比较多
plt.yscale('log')
plt.legend()
plt.show()

结果:
在这里插入图片描述
分析:16年2月份为例,用券量级别在1000,发券量在10万左右,在100倍左右,优惠券的使用率是非常低的

  • 计算每天优惠券与发券量占比
plt.figure(figsize=(18, 6))
plt.bar(x=date_received_sort, height=consume_num_everyday['count']/coupon_sendout_everyday['count'], label='百分比')
plt.legend()
plt.show()

结果:
在这里插入图片描述
分析:由图可知,优惠券使用率最高在16年3月底,达到了30%;使用率最低在16年1月底,最低为3%左右;整体来看,优惠券使用率波动较大。结合生活可以发现,优惠券投放与使用是否有三波小高峰?分别是元旦三八六一八活动左右,而且优惠券的使用力度也与这个时间段相关。

总结

  1. 有优惠券未消费占比55.7%最大,说明大多数人拿完券之后,尚未使用;无优惠券有消费用户占比40%,说明很多人没有使用优惠券,可能优惠券的吸引力不大,客户没在意;可能新用户比较多优惠券有消费用户占比较小4.3%,说明我们的优惠券使用率不高,可以考虑是不是加大优惠券力度
  2. 有些店家生意之所以火爆,应该是物美价廉导致,与距离和优惠力度相关性不大
  3. 优惠券使用率最高在16年3月底,达到了30%;使用率最低在16年1月底,最低为3%左右;整体来看,优惠券使用率波动较大。优惠券投放与使用有三波小高峰,分别是元旦三八六一八活动左右,而且优惠券的使用力度也与这个时间段相关。
  • 7
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
O2O优惠券使用预测数据集 背景描述 随着移动设备的完善和普及,移动互联网+各行各业进入了高速发展阶段,这其中以O2O(Online to Offline)消费最为吸引眼球。 据不完全统计,O2O行业估值上亿的创业公司至少有10家,也不乏百亿巨头的身影。O2O行业天然关联数亿消费者,各类APP每天记录了超过百亿条用户行为和位置记录,因而成为大数据科研和商业化运营的最佳结合点之一。 以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。 个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。 本数据集为研究人员提供了O2O场景相关的丰富数据,通过分析建模精准预测用户是否会在规定时间内使用相应优惠券。 数据说明 注意: 为了保护用户和商家的隐私,所有数据均作匿名处理,同时采用了有偏采样和必要过滤。 offline_train.csv | 用户线下消费和优惠券领取行为表 字段 说明 User id 用户ID Merchant id 商户ID Coupon id 优惠券ID:null表示无优惠券消费,此时 Discount_rate 和 Date_received 字段无意义 Discount rate 优惠率:x \in [0,1]代表折扣率;x:y表示满x减y。单位是元 Distance user经常活动的地点离该 merchant 的最近门店距离是 x * 500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null 表示无此信息,0表示低于500米,10表示大于5公里; Date received 领取优惠券日期 Date 消费日期:如果 Date=null & Coupon_id != null,该记录表示领取优惠券但没有使用,即负样本;如果 Date!=null & Coupon_id = null,则表示普通消费日期;如果 Date!=null & Coupon_id != null ,则表示用优惠券消费日期,即正样本; online_train.csv | 用户线上点击/消费和优惠券领取行为表 字段 说明 User_id 用户ID Merchant_id 商户ID Action 0 点击, 1购买,2领取优惠券 Coupon_id 优惠券ID:null表示无优惠券消费,此时 Discount_rate 和 Date_received 字段无意义。“fixed”表示该交易是限时低价活动。 Discount_rate 优惠率:x \in [0,1]代表折扣率;x:y表示满x减y;“fixed”表示低价限时优惠; Date_received 领取优惠券日期 Date 消费日期:如果 Date=null & Coupon_id != null,该记录表示领取优惠券但没有使用,即负样本;如果 Date!=null & Coupon_id = null,则表示普通消费日期;如果 Date!=null & Coupon_id != null,则表示用优惠券消费日期,即正样本; offline_test.csv | 用户O2O线优惠券使用预测样本 字段 说明 User_id 用户ID Merchant_id 商户ID Coupon_id 优惠券ID Discount_rate 优惠率:x \in [0,1]代表折扣率;x:y表示满x减y. Distance user经常活动的地点离该merchant的最近门店距离是 x * 500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null表示无此信息,0表示低于500米,10表示大于5公里; Date_received 领取优惠券日期 研究人员需要为上述预测表预测出15天内用户线使用优惠券的概率,其中 user_id, coupon_id 和 date_received 均来自上述预测样本, 而 Probability 为预测值。 字段 说明 Coupon_id 优惠券ID Date_received 领取优惠券日期 Probability 15天内用券概率,需预测给出 问题描述 数据提供了用户在2016年1月1日至2016年6月30日之间真实线线下消费行为,可以预测用户在2016年7月领取优惠券后15天以内的使用情况

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值