scrapyd相关介绍
是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本
scrapyd-client
发布爬虫需要使用另一个专用工具,就是将代码打包为EGG文件,其次需要将EGG文件上传到远程主机上这些操作需要scrapyd-client来帮助我们完成
Scrapy构架图
创建爬虫文件
scrapy startproject jobboleproject
新建爬虫文件
scrapy genspider jobbole jobbole.com
- init() : 初始化爬虫名字和start_urls列表
- start_requests() 调用make_requests_from url():生成Requests对象交给Scrapy下载并返回response
- parse():
解析response,并返回Item或Requests(需指定回调函数)。
Request先关参数介绍
- url: 就是需要请求,并进行下一步处理的url
- callback: 指定该请求返回的Response,由那个函数来处理。
- method: 请求一般不需要指定,默认GET方法,可设置为"GET", “POST”, &