合并数据,汇总统计
数据来源:天池新人实战赛o2o优惠券使用预测赛题与数据-天池大赛-阿里云天池
使用Coupon Usage Data for O2O中的数据集《ccf_online_stage1_train.csv》和《ccf_offline_stage1_train.csv》 试找出在2016年6月期间,线上线下累计优惠券使用次数最多的顾客。
概要:此题卡壳比较严重,乍看要求很简单,用python很实现容易。但过程中发现python相比SQL有一些不同,导致在处理此题反而不容易理解
先导入数据。此次数量较大,同时需要导入2个数据集,直接从本地下载导入。
import pandas as pd
import numpy as np
df_online=pd.read_csv('../data/阿里天池/ccf_online_stage1_train.csv')
df_offline=pd.read_csv('../data/阿里天池/ccf_offline_stage1_train.csv')
先处理数据量较小的offline数据集
首先把NaN数据进行处理,筛出2016年6月期间的数据集
同时新增一列number,并统一赋值1。原因是这样的,此题是要求按User_id作为分组索引,然后汇总统计优惠券的使用次数,但数据集中没有对应的优惠券ID的