Python使用lxml解析HTML response

最新推荐文章于 2024-07-31 09:03:16 发布

肖哥shelwin

最新推荐文章于 2024-07-31 09:03:16 发布

阅读量3.1k

点赞数 1

分类专栏： Python编程测试不将就文章标签： python html xml lxml

本文链接：https://blog.csdn.net/zjuxsl/article/details/76975956

版权

测试不将就同时被 2 个专栏收录

22 篇文章 3 订阅

订阅专栏

Python编程

16 篇文章 16 订阅

订阅专栏

lxml是一个功能强大、易于使用的Python第三方库，用来解析XML和HTML。

在基于HTTP的web服务中，经常需要从HTML格式的response中提取某个我们需要的信息。这时，lxml库就能派上用场。

from lxml import etree

response = '''<!DOCTYPE html>
<html>
  <head>
    <title>This is a title</title>
  </head>
  <body>
    <p>Hello world!</p>
  </body>
</html>
html = '''

html = etree.HTML(response.decode('utf-8'))
title = html.xpath(u"//title")[0]
print title.text.strip()

输出为：