Xpath

安装google assistant

1.离线下载assistant,解压
2.打开Google浏览器,右上角->更多工具->扩展程序->开发者模式
3.解压的文件夹 拖进来
4. 重启浏览器
助手
提取码:gbt0

xpath

xpath is XML 路径语言,用于确定节点位置
/div 根目录下的div
//div, 所有的div元素
//div/p 所有div 下的子节点p
//div//p 所有div 下的所有的p
//p[@class=“name”]/a/text() 设置属性
//p[2] 第二个节点

条件使用[ ]
属性使用@
//p/a/@href 获取地址

path1 | path2 | path3 或
root.xpath("(//div/p)|(//div//a//p)|(//div/a/text())")

//li[contains(@id,“menu-”)] 属性包含字串
text() 文本内容

返回:节点对象列表/ 字符串列表

lxml + xpath

python -m pip install lxml
from lxml.etree import HTML
root = HTML("html...")
root.xpath("xxxx")
#匹配到项目节点列表
#再遍历每个节点解析
sub_node.xpath(".//div") #. 当前子节点中查找

案例:
抓取https://book.douban.com/top250?start=25
页面,抓取每一本书的信息
在这里插入图片描述
注意取索引的时候,可能会有空列表,需解决!

root.xpath("/*") 根节点的所有子节点 html元素
root.xpath("//head")
root.xpath("/*/head") 匹配head 元素
root.xpath("//div/p/a/text()") 所有的div下的所有的p下的所有的a的文本。
root.xpath("//div/p/a[contains(@href,‘test’)]/text()") href 包含‘test’的超链接的文本
root.xpath("//div/p/a[starts-with(@href,‘test’)]/text()") href以test开头的超链接的文本。
root.xpath("//div/p/a[contains(text(),‘文本包含xxxx’)]/text()")

链接:测试代码
提取码:jnct

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

laufing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值