1 创建项目scrapy startproject projectname
2.
3.item
4.scrapy crawl dmoz
5.开始抓取, start_urls,start_requests
6.response.url当前连接
7.全局命令:
8.
9Item Loaders
自定义--
10.scrapy shell <url> 测试,数据抓取
11 pipline,去重,处理写入txt,数据库,json,xml
为了启用一个Item Pipeline组件,你必须将它的类添加到 ITEM_PIPELINES 配置,就像下面这个例子:
13.scarpy crawl spider -o 1.xml 1.csv 1.json 1.txt
14.百度百科,抓取邮箱
15
16.每个爬虫抓取完成数据之后,信息存储
from scrapy.mail import MailSender
18中间件--
19
20.Spiders Contracts 单元测试 了解
22反爬虫
23.selenium+中间调用任何浏览器
24.不要再内存list,dict中存储数据,否则溢出
25ImagesPipeline存储图片
26Scrapyd 部署管理
27限制速度
28 scrapy bench测试最大并发
29 暂停继续
30自定义改造scraapy替换 了解
#针对当前爬虫的设置,不覆盖全局 了
32了解异常