最近在学习文本分析,包括爬虫、文本清洗、词向量、机器学习建模等,一边学一边做个案例,希望各位大虾多给点意见~
整体思路
爬取大众点评十大热门糖水店的评论,爬取网页后从html页面中把需要的字段信息(顾客id、评论时间、评分、评论内容、口味、环境、服务、店铺ID)提取出来并存储到MYSQL数据库中。
网页爬取和解析
链接格式为"http://www.dianping.com/shop/" + shopID + “/review_all/” + pi,如:http://www.dianping.com/shop/518986/review_all/p1 ,一页评论有20条。我们使用for循环构造链接URL,使用requests库发起请求并把html页面爬取下来,通过BeautifulSoup和re库解析页面提取信息。
我们发现完整的评论都存储在’div’,'main-review’中,且部分页面口味、环境、服务并不是每一页都有,因此需要使用try…except…防止程序中断,BeautifulSoup部分代码如下:
for item in soup('div','main-review'):
cus_id = item.find('a','name').text.strip()
comment_time = item.find('span','time').text.strip()
comment_star = item.find('span',re.compile('