scrapy框架实现豆瓣爬取热门短评

本文介绍了使用scrapy框架爬取豆瓣电影《流浪地球》的热门评论,包括获取评论页面、确定爬取数据指标、分析评论位置、单页抓取与存储,以及爬取所有页面的实现步骤。
摘要由CSDN通过智能技术生成

最近流浪地球的话题非常热,于是我想做一篇关于流浪地球的影评分析。首先要获取数据,于是这两天学习了一下scrapy框架并简单地实现了豆瓣热门点评的爬取。

思路是这样:

  • 获取评论页面
  • 查看评论页面,根据页面能提供的内容确定爬取数据指标
  • 分析评论页面,查看所需数据所在位置
  • 实现单页面抓取
  • 实现单页面存储
  • 完善代码,爬取所有页面

一、获取评论页面

1、进入豆瓣电影网页,在搜索框中输入流浪地球进入电影页面

往下拉,点击(全部...条)查看所有评论

点击进去评论页面的首页是地址https://movie.douban.com/subject/26266893/comments?status=P

而下一页的地址是https://movie.douban.com/subject/26266893/comments?start=20&limit=20&sort=new_score&status=P

观察可以看到subject后面的一串数字为电影编号,start为从第n条开始的评论,limit为一页限制多少条数据

所以在我们爬取的时候可以使用

url = 'https://movie.douban.com/subject/26266893/comments?start='+ str(i) +'&limit=20&sort=new_score&status=P'

进行爬取,只需要控制i <= 480

二、查看评论页面,根据页面能提供的内容确定爬取数据指标

通过观察评论页面,我们能得到的信息有:评论用户,评分,评论,评论日期几项数据

除此之外,点击用户名,会跳转到用户的个人页面

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值