xpath解析是我们最经常应用的数据解析方式,我们今天就来介绍xpath解析。
xpath解析
进行xpath解析大致分为以下几个步骤:
1.导入lxml库,导入etree模块
2.实例化etree对象tree
3.数据解析
4.保存爬取到的数据
1.引入etree模块
在这里,我学习的视频里面导入etree模块是直接从lxml库中导入的,但是好像py3以后就不能直接从lxml库中导入etree了,需要先从lxml中导入html库,利用html导入etree具体代码如下:
from lxml import html
etree=html.etree
经过这两个步骤我们就获取了etree模块了。
2.实例化etree对象
实例化etree对象时和我们实例化bs4对象相似,有两种方式可以选择。
一种是从本地文件中直接加载,一种是从页面响应内容中加载。
2.1从本地html加载etree对象
将本地文件的路径传入到etree的HTML方法中即可代码如下
from lxml import html
etree=html.etree
#调用etree模块的HTML方法将本地html路径当作参数传入
tree=etree.HTML('页面02.html')
print("加载成功!内容是:"+str(tree[0]))
ps(我之前加载本地html的时候报了一个异常,忘记具体是什么内容了,说的应该是解析器问题,然后用下面的代码就可以解决,如果你没有出现这个问题请忽略这段文字)
from lxml import html
etree=html.etree
parser = etree.HTMLParser(encoding=