lxml是一个功能强大、易于使用的Python第三方库,用来解析XML和HTML。
在基于HTTP的web服务中,经常需要从HTML格式的response中提取某个我们需要的信息。这时,lxml库就能派上用场。
from lxml import etree
response = '''<!DOCTYPE html>
<html>
<head>
<title>This is a title</title>
</head>
<body>
<p>Hello world!</p>
</body>
</html>
html = '''
html = etree.HTML(response.decode('utf-8'))
title = html.xpath(u"//title")[0]
print title.text.strip()
输出为:
This is a title