scrapy 方法,函数,及一些参数

目录

相对链接 url 变绝对链接:

Selector(response=response.text):

extract() 与 extract_first():

isinstance(item,BooksSpiderItem)

Request(url[,callback,method,headers,body,cookies,meta,encoding,priority,dont_filter=False,errback) 对象


相对链接 url 变绝对链接:

response.urljoin(next_url)

next_url 为提取出来的 url 的相对链接

 

 

Selector(response=response):

selector = Selector(response=response.text)

用来解析,响应后的 HTML 源码,把 HTML 代码标准化

 

 

extract() 与 extract_first():

两者都相当于从列表里取出元素,和 .xpath[0] 效果类似

extract():用选择器提取出来想要的元素后,要使用它才能获得实际文本,获得此路径下的全部文本,返回选中内容的 Unicode 字                   符串

extract_first():选择器提取出来想要的元素后,要使用它才能获得实际文本,获得此路径下的第一个文本,就是从列表中获得第                           一个

 

 

isinstance(item,BooksSpiderItem)

用来判断两个类型是否相同

 

 

Request(url[,callback,method,headers,body,cookies,meta,encoding,priority,dont_filter=False,errback) 对象

priority:设置请求的优先级(默认为0),这个优先级是 scheduler 在进程中用于定义处理请求的顺序

dont_filter:标记当前请求在 scheduler 内不被过滤,但多次处理一个自定义请求时(像模拟登录,登录失败,反复登录会访问同一个请求),可以设置此参数以避免 scheduler 将请求进行冗余过滤,在使用时一定要非常小心,因为有可能会进入一个请求的死循环

meta:是一个字典,里面包含了一些元数据,我们也可以自己在请求时添加键,在 response 中具有传递性,response.meta[键名] 可以访问到对应值,scrapy 包含了如下的元数据

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值