1、创建Scrapy项目
scrapy startproject ***
2.进入项目目录,使用命令genspider创建Spider
scrapy genspider **** ***.com
3、定义要抓取的数据(处理items.py文件)
import scrapy
4、编写提取item数据的Spider(在spiders文件夹下:allbooks.py)
import scrapy
5.处理pipelines管道文件保存数据,可将结果保存到文件中(pipelines.py)
import time
6.配置settings文件(settings.py)
LOG_FILE = "allbooks.log"
7-选用,增加随机代理中间件(middlewares.py)
import random
7.记得提前打开mysq/redis/MongoDBl数据库,并且建立好相应的表
CREATE TABLE IF NOT EXISTS
8.以上设置完毕,进行爬取:执行项目命令crawl,启动Spider:
scrapy crawl ***