学习爬虫day08

最新推荐文章于 2022-05-21 16:00:00 发布

V-Sugar

最新推荐文章于 2022-05-21 16:00:00 发布

阅读量312

点赞数

分类专栏： python # 爬虫文章标签：分布式 scrapy scrapy_redis 爬虫

本文链接：https://blog.csdn.net/weixin_43844838/article/details/108111919

版权

本文介绍了Scrapy框架的使用，包括XPath提取、CrawlSpider规则设定、代理IP判断、下载中间件的实现、模拟登陆方法以及Scrapy_redis的配置与分布式爬虫的应用。重点讲解了如何处理url不完整、请求去重、增量爬虫和断点续爬的策略。

摘要由CSDN通过智能技术生成

创建爬虫
- scrapy genspider -t crawl 爬虫名 allow_domain
指定 start_url ，对应的响应会进过 rules 提取 url 地址
完善 rules，添加Rule
- Rule(LinkExtractor(allow=r'info/1055/\d+\.htm'), callback='parse_item',follow=True),
  - LinkExtractor : 链接提取器, 提取url地址
  - allow : 正则匹配url地址
  - callback : 提取出来url地址的response会交给callback处理
  - follow : 当前url地址的响应是否重新经过rels来提取url地址
  - callback 和 follow 如果不使用的话可以删掉
  - 匹配链接可以使用xpath/css等，只要写到类的一层就可以了
    - restrict_css
    - restrict_xpath
注意点
- url 地址不完整, crawlspider 会自动补充完整之后在请求
- parse 函数不能定义, 他有特殊的功能要实现
- callback : 链接提取器提取出来的url地址对应的响应交给他处理
- follow : 链接提取器提取出来的url地址对应的响应是否继续被rules来过滤

直接携带cookie
找到发送post请求的url地址,带上信息,发送请求
- settings种有一个参数为COOKIES_ENABLED，会保存上一次的cookie然后下一次请求会带上
- 查看 cookies 的传递过程可以在settings中将COOKIES_DEBUG设置成True
strat_url请求是strat_request方法来做的
- 模拟登陆的时候可以重新定义一个start_request方法来做登陆
scrapy 发送 post 请求
- scrapy.FromRequest()
  - post url地址
  - 回调函数 callback
  - 数据 formdata
- scrapy.FormRequest.from_response
  - 如果 post