这几天一直在学习scrapy框架,刚好学到了CrawlSpider和Rule的搭配使用,就想着要搞点事情练练手!!!
信息提取
算了,由于爬虫运行了好几次,太过分了,被封IP了,就不具体分析了,附上《战狼2》豆瓣影评页面链接:https://movie.douban.com/subject/26363254/reviews
抓包
影评页面是分页的,为了爬取到更多条影评,用Chrome抓包分析请求发现,其实上面的网址可以是这样的:https://movie.douban.com/subject/26363254/reviews?start=0
这下明了了,URL最后的”start=0”就是我们搞更大的事情要用的东西了,先放着。
准备工作
- pymysql驱动(pip安装就行了)
- mysql数据库
- scrapy
开搞
创建一个scrapy项目
选择一个自己中意的目录,在终端打开,输入一下命令:
scrapy startproject douban
这样就创建成功了,我使用Pycharm打开的项目,项目目录结构大概就是这样:
关于各个文件和文件夹有什么用,请自行百度,或者阅读scrapy官方文档
代码实现
items.py
因为只是练个手,就不爬太多东西了!
# items.py
import scrapy
class DoubanItem