安装google assistant
1.离线下载assistant,解压
2.打开Google浏览器,右上角->更多工具->扩展程序->开发者模式
3.解压的文件夹 拖进来
4. 重启浏览器
助手
提取码:gbt0
xpath
xpath is XML 路径语言,用于确定节点位置
/div 根目录下的div
//div, 所有的div元素
//div/p 所有div 下的子节点p
//div//p 所有div 下的所有的p
//p[@class=“name”]/a/text() 设置属性
//p[2] 第二个节点
条件使用[ ]
属性使用@
//p/a/@href 获取地址
path1 | path2 | path3 或
root.xpath("(//div/p)|(//div//a//p)|(//div/a/text())")
//li[contains(@id,“menu-”)] 属性包含字串
text() 文本内容
返回:节点对象列表/ 字符串列表
lxml + xpath
python -m pip install lxml
from lxml.etree import HTML
root = HTML("html...")
root.xpath("xxxx")
#匹配到项目节点列表
#再遍历每个节点解析
sub_node.xpath(".//div") #. 当前子节点中查找
案例:
抓取https://book.douban.com/top250?start=25
页面,抓取每一本书的信息
注意取索引的时候,可能会有空列表,需解决!
root.xpath("/*") 根节点的所有子节点 html元素
root.xpath("//head")
root.xpath("/*/head") 匹配head 元素
root.xpath("//div/p/a/text()") 所有的div下的所有的p下的所有的a的文本。
root.xpath("//div/p/a[contains(@href,‘test’)]/text()") href 包含‘test’的超链接的文本
root.xpath("//div/p/a[starts-with(@href,‘test’)]/text()") href以test开头的超链接的文本。
root.xpath("//div/p/a[contains(text(),‘文本包含xxxx’)]/text()")
链接:测试代码
提取码:jnct