Scrapy中的Selectors及正则表达式的使用

最新推荐文章于 2022-11-17 21:19:45 发布

云飞扬°

最新推荐文章于 2022-11-17 21:19:45 发布

阅读量1.6k

点赞数 1

分类专栏： Scrapy爬虫文章标签： selectors xpath 正则表达式 Scrapy中的Selectors及正则表达式的使用

本文链接：https://blog.csdn.net/weixin_44706512/article/details/99727191

版权

Scrapy爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1-Request

表示一个HTTP请求，它通常是在爬虫生成，并由下载执行，从而生成Response。

使用前需要先导入:

from scrapy.http import Request

2-Response

表示的HTTP响应，这通常是下载，并提交到爬虫进行处理。

3-在selectors中使用XPaths

3-1-构建selectors

通过response的selector属性来构建

response.selector.xpath... 简写：response.xpath...

3-2-使用selectors

response.xpath('//title/text()').extract()

response.css('title::text').extract()

【注意】要实际提取文本数据，必须调用选择器.extract() 方法

4-在selectors中使用正则表达式

resonpse.body.decode(‘编码方式’)

例如：

import re
     
data = response.body.decode('gbk')
position_pat = '<a target="_blank" title="(.*)" href=".*" onmousedown=".*">'
item['position'] = re.findall(position_pat, data)

云飞扬°

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Scrapy中的Selectors及正则表达式的使用

1-Request表示一个HTTP请求，它通常是在爬虫生成，并由下载执行，从而生成Response。使用前需要先导入:from scrapy.http import Request2-Response表示的HTTP响应，这通常是下载，并提交到爬虫进行处理。3-在selectors中使用XPaths3-1-构建selectors通过response的selec...
复制链接

扫一扫

专栏目录