Scrapy中的Selectors及正则表达式的使用

1-Request

表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response。

使用前需要先导入:

from scrapy.http import Request

2-Response

表示的HTTP响应,这通常是下载,并提交到爬虫进行处理。

 

3-在selectors中使用XPaths

3-1-构建selectors

通过response的selector属性来构建

 response.selector.xpath...    简写:response.xpath...

3-2-使用selectors

response.xpath('//title/text()').extract()

response.css('title::text').extract()

【注意】要实际提取文本数据,必须调用选择器.extract() 方法

 

4-在selectors中使用正则表达式

resonpse.body.decode(‘编码方式’)

例如:

import re
     
data = response.body.decode('gbk')
position_pat = '<a target="_blank" title="(.*)" href=".*" onmousedown=".*">'
item['position'] = re.findall(position_pat, data)

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值