1、哪些类别的商品比较畅销
2、哪些商品比较畅销
3、求不同门店的销售额占比
4、哪段时间段是超市的客流高峰期?【选做】
import pandas as pd
import numpy as np
data=pd.read_csv(r'order-14.3.csv',sep=',',encoding='gbk')
# 查看数据信息
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3478 entries, 0 to 3477
Data columns (total 7 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 商品ID 3478 non-null int64
1 类别ID 3478 non-null int64
2 门店编号 3478 non-null object
3 单价 3478 non-null float64
4 销量 3478 non-null float64
5 成交时间 3478 non-null object
6 订单ID 3478 non-null object
dtypes: float64(2), int64(2), object(3)
memory usage: 190.3+ KB
grouped=data['销量'].groupby(data['类别ID'])
grouped.sum().idxmax()
922000003
1、哪些类别的商品比较畅销
data.groupby(by='类别ID')['销量'].agg([np.sum]).idxmax()
sum 922000003
dtype: int64
group1=data['销量'].groupby(data['商品ID'])
group1.sum().idxmax()
29989059
2、哪些商品比较畅销
data.groupby(by='商品ID')['销量'].agg([np.sum]).idxmax()
sum 29989059
dtype: int64
3、求不同门店的销售额占比
data['销售额']=data['单价']*data['销量']
# print(data)
data.groupby(by='门店编号')['销售额'].agg(np.sum)/(data['销售额'].sum())
门店编号
CDLG 0.376815
CDNL 0.278392
CDXL 0.344792
Name: 销售额, dtype: float64
group2=data['销售额'].groupby(data['门店编号'])
group2.sum()
门店编号
CDLG 10908.82612
CDNL 8059.47867
CDXL 9981.76166
Name: 销售额, dtype: float64
totle=data['销售额'].sum()
print(totle)
28950.06645
group2.sum()/totle
门店编号
CDLG 0.376815
CDNL 0.278392
CDXL 0.344792
Name: 销售额, dtype: float64
4、哪段时间段是超市的客流高峰期?【选做】
data['小时']=pd.to_datetime(data['成交时间']).dt.hour
data.groupby(by='小时')['订单ID'].describe()['unique'].sort_values(ascending=False)
小时
9 156
10 143
8 106
17 73
19 71
18 71
11 63
16 50
20 39
7 37
14 36
13 30
15 17
21 16
6 10
Name: unique, dtype: object