scrapy个人总结

1 创建项目scrapy startproject projectname
2.


3.item

4.scrapy crawl dmoz


5.开始抓取, start_urls,start_requests

6.response.url当前连接





7.全局命令:




8.










9Item Loaders

自定义--


10.scrapy shell <url> 测试,数据抓取


11 pipline,去重,处理写入txt,数据库,json,xml





12.
为了启用一个Item Pipeline组件,你必须将它的类添加到 ITEM_PIPELINES 配置,就像下面这个例子:

}



13.scarpy crawl spider -o 1.xml 1.csv 1.json 1.txt


14.百度百科,抓取邮箱



15




16.每个爬虫抓取完成数据之后,信息存储



17.
from scrapy.mail import MailSender


18中间件--


19

20.Spiders Contracts 单元测试 了解










22反爬虫

















23.selenium+中间调用任何浏览器

24.不要再内存list,dict中存储数据,否则溢出

25ImagesPipeline存储图片

26Scrapyd 部署管理


27限制速度










28 scrapy bench测试最大并发


29 暂停继续


30自定义改造scraapy替换 了解


31
#针对当前爬虫的设置,不覆盖全局 了



32了解异常
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值