最近流浪地球的话题非常热,于是我想做一篇关于流浪地球的影评分析。首先要获取数据,于是这两天学习了一下scrapy框架并简单地实现了豆瓣热门点评的爬取。
思路是这样:
- 获取评论页面
- 查看评论页面,根据页面能提供的内容确定爬取数据指标
- 分析评论页面,查看所需数据所在位置
- 实现单页面抓取
- 实现单页面存储
- 完善代码,爬取所有页面
一、获取评论页面
1、进入豆瓣电影网页,在搜索框中输入流浪地球进入电影页面
往下拉,点击(全部...条)查看所有评论
点击进去评论页面的首页是地址https://movie.douban.com/subject/26266893/comments?status=P
而下一页的地址是https://movie.douban.com/subject/26266893/comments?start=20&limit=20&sort=new_score&status=P
观察可以看到subject后面的一串数字为电影编号,start为从第n条开始的评论,limit为一页限制多少条数据
所以在我们爬取的时候可以使用
url = 'https://movie.douban.com/subject/26266893/comments?start='+ str(i) +'&limit=20&sort=new_score&status=P'
进行爬取,只需要控制i <= 480
二、查看评论页面,根据页面能提供的内容确定爬取数据指标
通过观察评论页面,我们能得到的信息有:评论用户,评分,评论,评论日期几项数据
除此之外,点击用户名,会跳转到用户的个人页面