文本挖掘入门(一)：大众点评评论爬虫

最新推荐文章于 2020-12-30 13:26:34 发布

置顶

zheng_weibin

最新推荐文章于 2020-12-30 13:26:34 发布

阅读量3k

点赞数 2

分类专栏： python 文章标签：爬虫 python 文本挖掘数据分析 NLP

本文链接：https://blog.csdn.net/zheng_weibin/article/details/82899802

版权

本文介绍了作者在学习文本分析过程中，如何爬取和分析大众点评糖水店评论。首先，概述了整体思路，包括爬取评论信息并存储到数据库。接着，详细阐述了使用Python的requests和BeautifulSoup库进行网页爬取和解析的过程。在数据存储部分，讲解了如何利用MYSQL数据库存储数据。最后，讨论了反爬虫策略，如修改请求头、设置Referer、使用Cookies以及降低爬取频率等。代码已上传至GitHub。

摘要由CSDN通过智能技术生成

最近在学习文本分析，包括爬虫、文本清洗、词向量、机器学习建模等，一边学一边做个案例，希望各位大虾多给点意见~

整体思路

爬取大众点评十大热门糖水店的评论，爬取网页后从html页面中把需要的字段信息（顾客id、评论时间、评分、评论内容、口味、环境、服务、店铺ID）提取出来并存储到MYSQL数据库中。

网页爬取和解析

链接格式为"http://www.dianping.com/shop/" + shopID + “/review_all/” + pi，如：http://www.dianping.com/shop/518986/review_all/p1 ，一页评论有20条。我们使用for循环构造链接URL，使用requests库发起请求并把html页面爬取下来，通过BeautifulSoup和re库解析页面提取信息。

我们发现完整的评论都存储在’div’,'main-review’中，且部分页面口味、环境、服务并不是每一页都有，因此需要使用try…except…防止程序中断，BeautifulSoup部分代码如下：

for item in soup('div','main-review'):
    cus_id = item.find('a','name').text.strip()
    comment_time = item.find('span','time').text.strip()
    comment_star = item.find('span',re.compile('