scrapy安装
步骤是windows+r,输入cmd回车进入终端
有时pip版本过于老旧不能使用,需要升级pip版本,输入pip install --upgrade pip回车,升级成功
安装scrapy命令:pip install Scrapy,lxml
scrapy各模块介绍
spiders:你的爬虫文件,页面解析
items:爬虫内容存储格式,类似字典
pipelines: 数据存储管道,用于存储数据
middleware:中间组件,用于反爬策略以及爬取设置
settings:相关联各种设置
xpath组件
用于页面解析,可将文档 格式化并提取节点,具体语法地址
https://www.cnblogs.com/lone5wolf/p/10905339.html
新建scrapy文件
创建项目(cmd):scrapy startproject 项目名称
创建爬虫应用程序(cmd)
cd project_name(进入项目目录)
scrapy genspider 应用名称 爬取网页的起始url (例如:scrapy genspider FirstPa www.qidian.com)
执行爬虫程序(cmd)
scrapy crawl 应用名称
各组件代码
爬虫文件,test.py
import scrapy
from FirstPa.items import FirstpaItem
class TestSpider(scrapy.Spider):
name = 'Test'