scrapy
爬虫
爱打酱油的阿白啊
这个作者很懒,什么都没留下…
展开
-
分布式爬虫过程
一、redis数据库实现RedisCrawlSpider分布式操作 redis的准备工作: 1.对redis配置文件进行配置: - 注释该行:bind 127.0.0.1,表示可以让其他ip访问redis - 将yes改为no:protected-mode no,表示可以让其他ip操作redis 2.启动redis: mac/linux: redis-server redis.conf 进客户端可以查看info Server windows: redis-server.ex原创 2020-09-23 15:14:20 · 415 阅读 · 0 评论 -
私人爬虫红网爬取图片
工作流程 1 首先需要在一个爬虫中,获取到图片的url并存储起来。也是就是我们项目中test_spider.py中testSpider类的功能 2 项目从爬虫返回,进入到项目通道也就是pipelines中 3 在通道中,在第一步中获取到的图片url将被scrapy的调度器和下载器安排下载。 4 下载完成后,将返回一组列表,包括下载路径,源抓取地址和图片的校验码 大致的过程就以上4步,那么我们来看下代码如何具体实现 1 创建项目 scrapy startproject cnbeta 2 创建模板 进入项目目原创 2020-09-22 18:27:55 · 250 阅读 · 0 评论