大众点评数据分析项目完整流程
(一)项目背景
在大学的时候,每天都要面对一个世纪难题所困扰,那就是:中午吃什么?晚上吃什么?于是乎突发奇想,就想要统计一下全国一二线城市美食店的总体水平,吃不到也要看看别人家的餐桌摆的都是什么,哪些精品餐厅我还不知道,酒香不怕巷子深,我要把你们统统挖出来。
(二)项目介绍
本项目主要是对大众点评中全国范围内一二线城市美食信息进行分析,暂时不考虑其它线的城市。整个项目分为项目目的的确定、数据的采集、数据的预处理、对数据的分析和项目总结这五个部分。在整个项目流程中主要用到了八爪鱼采集器、Excel 和Python这三样工具。
(三)项目完整流程
1.项目目的
该项目主要是解决以下三个问题:
(a)哪个城市的店家数量最多,占比情况如何?
(b)分析这些城市的物价水平如何以及哪些美食类型最受欢迎?
(c)分析城市对美食品牌评分的影响?
2.数据的采集
在采集的过程中,由于大众点评不可以一次性获取目标城市的美食信息,为了采集到所有的目标数据,本人是在链家网开始页面上设置了筛选条件后,用八爪鱼采集器分批次对大众点评上所有的目标数据进行的采集,最终一共采集到了585915条数据。
3.数据的预处理
本人是用Excel 2010这个工具对八爪鱼采集器采集到的脏数据进行的清洗,为避免在数据清洗的过程出现对数据的误操作,本人分批次对采集到的数据进行了清洗,最后再对数据进行汇总。清洗过程中,主要用到的工具是Python,涉及到pandas、numpy等Python库,个别地方用到了scipy库。同时,流程中的所有代码都运行于pycharm。在数据处理前对源数据进行备份。
导入模块:
import numpy as np
import pandas as pd
查看dazhong_data具体信息:
dazhong_data = pd