scrapy框架实现豆瓣爬取热门短评

最新推荐文章于 2022-02-09 10:44:51 发布

池边的树

最新推荐文章于 2022-02-09 10:44:51 发布

阅读量1.7k

点赞数 1

分类专栏：爬虫文章标签：爬虫 scrapy

本文链接：https://blog.csdn.net/weixin_44508906/article/details/87904982

版权

本文介绍了使用scrapy框架爬取豆瓣电影《流浪地球》的热门评论，包括获取评论页面、确定爬取数据指标、分析评论位置、单页抓取与存储，以及爬取所有页面的实现步骤。

摘要由CSDN通过智能技术生成

最近流浪地球的话题非常热，于是我想做一篇关于流浪地球的影评分析。首先要获取数据，于是这两天学习了一下scrapy框架并简单地实现了豆瓣热门点评的爬取。

思路是这样：

1、进入豆瓣电影网页，在搜索框中输入流浪地球进入电影页面

往下拉，点击（全部...条）查看所有评论

观察可以看到subject后面的一串数字为电影编号，start为从第n条开始的评论，limit为一页限制多少条数据

所以在我们爬取的时候可以使用

url = 'https://movie.douban.com/subject/26266893/comments?start='+ str(i) +'&limit=20&sort=new_score&status=P'

进行爬取，只需要控制i <= 480

通过观察评论页面，我们能得到的信息有：评论用户，评分，评论，评论日期几项数据

除此之外，点击用户名，会跳转到用户的个人页面

关注

专栏目录