parsel学习记录

官方学习网址

https://parsel.readthedocs.io/en/latest/usage.html

提取文本数据

在这里插入图片描述

a = response.xpath('//title/text()')

返回的是一个selector对象

你也可以用CSS来问同样的事情

a = response.css('title::text')

若要实际提取文本数据 .get().getall()

a = response.xpath('//title/text()').get() 

在这里插入图片描述

返回的是字符串
.get()始终返回单个结果;如果有多个匹配项, 返回第一个匹配项的内容;如果没有匹配项,则无 被返回。 返回包含所有结果的列表。.getall()

快速选择嵌套数据 .xpath().css()

在这里插入图片描述

实例

a3 = response.css('.son1').xpath('./a/text()').getall()

在这里插入图片描述

如果只想提取第一个匹配的元素,可以调用 选择器 .get().extract_first()

a3 = response.css('.son1').xpath('./a/text()').get()
a3 = response.css('.son1').xpath('./a/text()').extract_first()

在这里插入图片描述

返回未找到元素,则返回:None 使用 .get() is None
作为快捷方式,也可直接在选择器列表中使用; 它返回第一个匹配元素的属性:.attrib

基本URL和一些图像链接

在这里插入图片描述

a4 = response.xpath('//div[@class="son1"]/a/@href').getall()
a4 = response.xpath('//div[@class="son1"]').css('a::attr(href)').getall()

在这里插入图片描述

对于css 要选择文本节点,请使用::text
要选择属性值,请使用 其中名称为 要为其输入值的属性的名称::attr(name)
这些伪元素是特定于 Scrapy/Parsell 的。 它们很可能不适用于其他库,如 lxml 或 PyQuery。
*::text 选择当前选择器上下文的所有后代文本节点:
a::attr(href)选择后代链接的 HREF 属性值
将选择器与正则表达式结合使用
节点:
a::attr(href)选择后代链接的 HREF 属性值
将选择器与正则表达式结合使用
当 XPath 或不够时,该函数可能非常有用。test() starts-with() contains()

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

嚄825

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值