-
scrapy的安装:pip install scrapy
-
创建scrapy的项目: scrapy startproject github
-
创建scrapy爬虫:在项目目录下执行 scrapy genspider git1 github.com
-
运行scrapy爬虫:在项目目录下执行 scrapy crawl git1
-
解析并获取scrapy爬虫中的数据:
- response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法
- extract() 返回一个包含有字符串的列表
- extract_first() 返回列表中的第一个字符串,列表为空没有返回None
-
重载请求
def start_requests(self):
-
构造post请求:
yield scrapy.FormRequest( url='https://github.com/session', callback=self.login, formdata=post_data )
-
scrapy管道的基本使用:
- 完善pipelines.py中的process_item函数
- 在settings.py中设置开启pipeline
ITEM_PIPELINES = { # 包名.文件名.类名 'myspider.pipelines.MyspiderPipeline': 300, }
-
response响应对象的常用属性
- response.url:当前响应的url地址
- response.request.url:当前响应对应的请求的url地址
- response.headers:响应头
- response.requests.headers:当前响应的请求头
- response.body:响应体,也就是html代码,byte类型
- response.status:响应状态码
-
建模
- 在items中定义模型
- 导入job中
-
pipeline中常用的方法:
-
process_item(self,item,spider):
- 管道类中必须有的函数
- 实现对item数据的处理
- 必须return item
-
open_spider(self, spider): 在爬虫开启的时候仅执行一次
-
close_spider(self, spider): 在爬虫关闭的时候仅执行一次
-
根据相应spider执行相应的pipeline。
if spider.name == 'job':
-
中间件
scrapy 常用笔记
最新推荐文章于 2024-03-26 13:44:58 发布