本文是对《scrapy网络爬虫实战》一书中,第5.2节内容的重写,由于伯乐在线网站代码有较大改动,原书中代码已经失效。
以下示例演示了
抓取https://movie.douban.com/explore#!type=movie&tag=%E7
%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0中电影的中文名、英文名、url 地址、类型、图片、导演、主演、编剧、国家地区、上映时间、电影语言、评分、剧情等信息。(简化了,没有提取划掉的信息,太耗时间了。)
(1)创建项目:scrapy startproject movies
(2)使用genspider创建爬虫文件: