大家好,最近太冷太冷了,取暖基本靠抖,通讯基本靠吼!不过天冷了,可以涮火锅吃羊肉,补一补!反正菜鸟哥很喜欢吃火锅,可以开始搞起来!那么,今天我们就用Python爬取某点评网站的火锅数据,一起找找好吃的火锅在哪里吧~~
目录:
- 1.说明
- 2.北京火锅店基础数据
- 3.北京火锅店评分数据
- 4.评价数及人均消费
- 5.都有哪些连锁店
- 6.爬虫过程
- 7.其他
接下来,我们来看看北京好吃的火锅都在哪里吧~
1.说明
环境
!! 环境
Windows:Windows-10
Python版本:3.7.9
IDE:Spyder 4.1.5
绘图库:matplotlib
数据
!! 数据
数据来源:大众点评-美食-北京-火锅
表单字段:['地区', '火锅类型', 'id', '商家名称', '商家评分', '评价数', '人均消费', '口味', '环境', '服务', '地址', '推荐菜']
表单数量:6416条有效数据(另有4000余条无评价等的店铺数据,记为无效数据,已删除)
2.北京火锅店基础数据
In [1]: df.id.nunique() #有效火锅店铺数:店铺id非重复计数
Out[1]: 5319
北京一共有5319家有评分的有效火锅店铺。
2.1. 火锅分类
算不上吃货的我,只知道两种火锅:火锅和铜锅。仔细一看,发现有接近小30种火锅种类,咱中国人真讲究。
在北京品类最多的有老北京火锅高达1020家,其次是川味麻辣火锅、羊蝎子火锅及串串香等。
以下是绘图代码:
# 获取数量前10的火锅类型
df_type = df.groupby('火锅类型')['id'].nunique().to_frame('数量').reset_index().sort_values('数量',ascending=False)
df_type.reset_index(drop=True,inplace=True)
df_type.head(10)
df_type10 = df_type.head(10) #前10
# 绘制柱状图
fig = df_type10.plot(kind='barh',x='火锅类型',y='数量',title="各类火锅店铺数量",
color='orange',figsize=(18,9),fontsize=16,
)
fig.axes.title.set_size(22) #设置标题字体大小
fig.legend(fontsize=16) #设置图例字体大小
fig.set_ylabel('火锅类型',fontdict={'fontsize':20}) #设置y轴名称及字体大小
for index, num in enumerate(df_type10['数量']): #添加数据标签
fig.text(num, index,s = num, ha = 'left', fontsize = 16)
2.2. 各地区火锅分类
以才哥在的海淀区为例,火锅类型最多的是川味麻辣