xpath helper的基础用法及调用
前言
最近跟着写了几个python爬虫的简单项目,发现一个比正则表达式更友好的匹配方式,所以就迫不及待的和大家分享了
使用前提
首先得在python坏境中导入一个lxml的模块
pip install lxml
其次需要一个插件xpath helper
这个插件应该每个浏览器都有,所以爬取不同浏览器的数据是不影响的
最后还得学习一点HTML的知识,至少要知道标签、属性等等
xpath helper的基本语法
符号 | 描述 | 运用 | 运用讲解 |
---|---|---|---|
// | 起始符号,从HTML中任选标签接上 | //div | div下的所有内容 |
[@] | 特定标签的标识符 | //div[@class(或id)=’’] | 特定div下的内容 |
/ | 子标签 | //div/span/a | div下的span下的a下的内容 |
* | 任意(数量)标签 | */span | 任意标签下的span标签下的内容 |
//div/a/@href
,div标签下的a下的所有href
//div/@id(或class)
,div标签所有的特定名称
在爬虫代码中的调用
from lxml import etree
#.......中间省略很多
new_resp=etree.HTML(resp)
#筛选处所选要的内容
info=new_resp.xpath("//div[@class='content']")
#print(info)
etree.HTML()用来解析字符串格式的HTML文档对象,将传进去的字符串转变成_Element对象。作为_Element对象,可以方便的使用getparent()、remove()、xpath()等方法。