北京市蛋糕相关业务分析
1. 数据来源
本项目所使用的数据集全部来自大众点评网,通过网络爬虫工具来爬取相关数据。由于大众点评上与蛋糕相关的种类较多,所以爬取了有关蛋糕,甜品,烘焙和婚庆的店铺信息。
本次爬取信息的时候,主要获得了以下信息:
内容字段包括: 店铺名称、 评分、 点评数、 人均消费、分类、 地点、口味、环境、服务、地址、推荐菜、网友点评。
2. 项目目的
朋友近期开了一家蛋糕店,需要了解一下,北京市有关蛋糕行业的情况,并为自己主要经营哪些业务提供一些参考信息,数据调查计划从以下几个方面入手:
Ø 北京市和蛋糕有关店铺的数量和分布情况
Ø 不同种类的店铺的人均消费
Ø 不同种类的店铺的评分情况
Ø 网友对不同种类店铺的点评情况
Ø 比较受网友欢迎的产品
Ø 大众点评网上店铺评分和其他指标的关系
3. 技术和工具
本项目主要分为两大部分,第一部分是数据爬取,采用的是集搜客网络爬虫工具。第二部分是数据分析,以 python 编程语言为基础,利用matlibplot和excel进行图形的可视化。数据分析部分主要使用 pandas 作为数据整理和统计分析的工具。在进行网友推荐和网友点评分析的时候,使用了jieba 作为分词工具包,并使用 wordcloud 包制作词云,在进行建模分析的时候,使用了sklearn包进行建模,在绘制热点地图的时候使用的是excel的ArcGIS 。 项目中针对每个问题的代码均上传到
https://github.com/GoonerJoe/cake_market_analysis。
4. 数据清理
通过统计分类,并结合具体情况,将店铺的分类锁定在:面包甜点,DIY手工坊,兴趣生活,亲子玩乐,职业技术,教育培训,亲子游乐,婚礼小商品,花店以及亲子服务这10个类型,把相关的类型进行合并,最终确定主要分析的店铺类型为:面包甜点,DIY手工坊,兴趣生活,婚礼蛋糕,亲子玩乐和职业技术。
5. 店铺数量
由上图可知,面包甜点的店铺数量最多,DIY手工坊的数量次之,剩下四类的店铺的数量持平,可能因为面包甜点是大部分人的早餐选择,而DIY手工坊为周末情侣约会和亲子游乐提供了新的选择,剩下的几类是针对有特殊需求的人群,所以数量并不是很多。
6. 店铺区域分布
l 面包甜点类