python项目--餐厅订单数据分析

导入包,加载数据

  • 数据是网上获取的,数据见链接: 餐厅订单数据分析的数据.
  • 通过分析之后我们要用到以下三个包,分别是numpypandasmatplotlib。加载数据我们采用pandas中的read_excel函数,由于该表中有三张小表,我们将这三张表都读取进来。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = 'SimHei'  # 设置中文显示
data1 = pd.read_excel("E:\下载\数据分析实战项目资料\餐厅\meal_order_detail.xlsx", sheet_name='meal_order_detail1')
data2 = pd.read_excel('E:\下载\数据分析实战项目资料\餐厅\meal_order_detail.xlsx', sheet_name='meal_order_detail2')
data3 = pd.read_excel('E:\下载\数据分析实战项目资料\餐厅\meal_order_detail.xlsx', sheet_name='meal_order_detail3')

数据预处理

  • 因为三张表不方便操作且有些内容重复,所以使用pandas库中的concat函数将三张表的数据拼接起来,并用dropna方法将空的列给删掉
data = pd.concat([data1, data2, data3], axis=0)  # 按照行进行拼接数据
# 查看数据的前五列
print(data.head(5))
data.dropna(axis=1, inplace=True)  # 按照列删除na列,并且修改源数据
# 查看数据详情信息,有多少个非空值等
print(data.info())

分析数据–初步分析

  1. 统计卖出菜品的平均价格
print(round(data['amounts'].mean(), 2))  #方法一:pandas自带函数
print(round(np.mean(data['amounts']), 2))  #方法二:numpy函数处理
  1. 频数统计,最受欢迎的10个菜,并画出菜品和销量的条形图
dishes_count = data['dishes_name'].value_counts()[:10]
print(dishes_count)
dishes_count.plot(kind='line', color=['r'])
dishes_count.plot(kind='bar', fontsize=16)
for x, y in enumerate(dishes_count):
    print(x, y)
    plt.text(x, y + 2, y, ha='center', fontsize=12)
plt.show()
  • 运行结果如下:
    在这里插入图片描述
  1. 点菜的种类的top10订单
data_group = data['order_id'].value_counts()[:10]
data_group.plot(kind='bar', fontsize=16, color=['r', 'm', 'b', 'y', 'g'])
plt.title('订单点菜的种类Top10')
plt.xlabel('订单ID', fontsize=16)
plt.ylabel('点菜种类', fontsize=16)
plt.show()
  1. 订单ID点菜数量Top10
  • 思路:先将id分组,得到数量金额总数,再分组求和,将分组求和得到的结果按降序排序,对top10画条形图。
data['total_amounts'] = data['counts'] * data['amounts']  # 统计单道菜消费总额
dataGroup = data[['order_id', 'counts', 'amounts', 'total_amounts']].groupby(by='order_id')
Group_sum = dataGroup.sum()  # 分组求和
sort_counts = Group_sum.sort_values(by='counts', ascending=False)  # 排序
sort_counts['counts'][:10].plot(kind='bar', fontsize=16)
plt.xlabel('订单ID')
plt.ylabel('点菜数量')
plt.title('订单ID点菜数量Top10')
plt.show()
  1. 订单消费金额Top10
sort_total_amounts = Group_sum.sort_values(by='total_amounts', ascending=False)
sort_total_amounts['total_amounts'][:10].plot(kind='bar')
plt.xlabel('订单ID')
plt.ylabel('消费金额')
plt.title('消费金额前10')
plt.show()
  1. 订单平均消费金额Top10
Group_sum['average'] = Group_sum['total_amounts'] / Group_sum['counts']
sort_average = Group_sum.sort_values(by='average', ascending=False)
sort_average['average'][:10].plot(kind='bar')
plt.xlabel('订单ID')
plt.ylabel('消费单价')
plt.title('订单消费单价前10')
plt.show()
  1. 订单平均消费金额Top10
Group_sum['average'] = Group_sum['total_amounts'] / Group_sum['counts']
sort_average = Group_sum.sort_values(by='average', ascending=False)
sort_average['average'][:10].plot(kind='bar')
plt.xlabel('订单ID')
plt.ylabel('消费单价')
plt.title('订单消费单价前10')
plt.show()
  1. 订单消费时间
  • 思路:在订单下单时间中取出小时画图
data['hourcount'] = 1  # 新列,用作计数器
data['time'] = pd.to_datetime(data['place_order_time'])  # 将时间转换成日期类型存储
data['hour'] = data['time'].map(lambda x: x.hour)
gp_by_hour = data.groupby(by='hour').count()['hourcount']
gp_by_hour.plot(kind='bar')
plt.xlabel('小时')
plt.ylabel('点菜数量')
plt.title('点菜数与小时的关系图')
plt.show()
  1. 每天订餐数量
data['daycount'] = 1
data['day'] = data['time'].map(lambda x: x.day)  # 解析出天
gp_by_day = data.groupby(by='day').count()['daycount']
gp_by_day.plot(kind='bar')
plt.xlabel('8月份日期')
plt.ylabel('点菜数量')
plt.title('点菜数量与日期的关系图')
plt.show()
  1. 点菜量最大的前5天
gp_by_day[:5].sort_values(ascending=False).plot(kind='bar')
plt.xlabel('点菜量Top5')
plt.ylabel('点菜数量')
plt.title('点菜数量与日期Top5')
plt.show()
  1. 查看本月周几点餐人数最多
data['weekcount'] = 1
data['weekday'] = data['time'].map(lambda x: x.weekday())
gp_by_weekday = data.groupby(by='weekday').count()['weekcount']
gp_by_weekday.plot(kind='bar')
plt.xlabel('星期')
plt.ylabel('点菜数量')
plt.title('点菜数量与星期关系图')
plt.show()
  1. 查看本月周几点餐人数最多
data['weekcount'] = 1
data['weekday'] = data['time'].map(lambda x: x.weekday())
gp_by_weekday = data.groupby(by='weekday').count()['weekcount']
gp_by_weekday.plot(kind='bar')
plt.xlabel('星期')
plt.ylabel('点菜数量')
plt.title('点菜数量与星期关系图')
plt.show()

进一步分析

  1. 计算每日销售额,绘制折线图分析8月餐饮销售额趋势
# 计算销售额
data['price'] = data['counts'] * data['amounts']
# 将订餐日期与星期相对应
week = pd.DatetimeIndex(data['place_order_time'])
data['weekday'] = week.day_name()
# 将订餐日期与月份天数相对应
data['day'] = pd.DatetimeIndex(data['place_order_time']).day
data_gb = data[['day', 'price']].groupby(by='day')
# number .agg聚合日期和价格
number = data_gb.agg(np.sum)
print(number)
# 绘制折线图
plt.figure(figsize=(10, 7))
plt.scatter(range(1, 32), number, marker='D')
plt.plot(range(1, 32), number['price'])
plt.title('8月餐饮销售额趋势示意图')
plt.xlabel('日期')
plt.ylabel('销售额')
plt.xticks(range(0, 32)[::7], range(0, 32)[::7])
plt.show()
  • 运行结果如下:
    在这里插入图片描述
  • 分析:明显可以看出销售额有四个顶峰,说明这四个顶峰的两天可能是周末,也符合现状,在周末的销售额会更高。
  1. 更近一步分析这四个两天的时间段是不是周末。
# 计算星期一至星期日的销售额并绘制柱状图分析星期与销售额的情况。
data_gb = data[['weekday', 'price']].groupby(by='weekday')
# number .agg聚合星期和价格
outcome = data_gb.agg(np.sum)
print(outcome)
# 对星期进行排序操作
sort = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
outcome2 = outcome.loc[sort, 'price']
print(outcome2)
# 绘制柱状图
plt.bar(range(1, len(outcome2) + 1), outcome2, width=0.5, alpha=0.5)
plt.xticks(range(1, len(outcome2) + 1), outcome2.index)
plt.title('星期与销售额的数量情况')
for i, j in zip(range(1, len(outcome2) + 1), outcome2):
    plt.text(i, j, '%i' % j, ha='center', va='bottom')
plt.show()
  • 运行结果如下:在这里插入图片描述
  • 分析:如图所示,销售额最好的那两天一定是周末
  1. 绘制圆环图分析星期与销售额占比情况
plt.figure(figsize=(5, 5))
plt.style.use('Solarize_Light2')
plt.pie(outcome2, labels=outcome2.index, autopct='%.2f %%', wedgeprops=dict(width=0.6, edgecolor='w'))
plt.title('星期销售额占比情况')
plt.show()
  • 运行结果如下:在这里插入图片描述
  • 分析:周六和周天的销售额总和占整个月的六成,由此我们可以看出餐厅的盈利基本上是靠周末。
  1. 绘制气泡图查看时间,订单量,销售额的关系
data_gb = data[['order_id', 'price', 'day']].groupby(by='day')
# 定义sort函数,去除表格中的的重复数字,并进行排序。
def sort(data):
    return len(np.unique(data))

outcome3 = data_gb.agg({'price': np.sum, 'order_id': sort})
print(outcome3)

# 绘制气泡图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.figure(figsize=(10, 6))
plt.scatter(range(1, 32), outcome3['price'], s=outcome3['order_id'])
plt.title('订单量、销售额与时间的关系')
plt.xlabel('时间')
plt.ylabel('销售额')
plt.show()
  • 运行结果如下:在这里插入图片描述
  • 总结:
  1. 餐厅生意最好的时候是每周的周末
  2. 点的最多的菜品是凉拌菠菜、古道小庄、麻辣小龙虾、爆炒鱿鱼和芝士烩波士顿龙虾,说明客户爱吃蔬菜,小龙虾等,可以对这类菜品进行开发,还能利用菜品信息对菜品库存进行调整减少浪费
  3. 消费金额高和频率高的顾客可以定位出来,以优惠券的形式吸引二次消费
  • 9
    点赞
  • 100
    收藏
    觉得还不错? 一键收藏
  • 17
    评论
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值