【Python 爬虫】详细介绍三种解析方式：正则表达式解析、CSS 选择器解析和 XPath 节点提取解析

weishaoonly

于 2023-05-05 17:32:09 发布

阅读量909

点赞数 1

文章标签： python 爬虫正则表达式

本文链接：https://blog.csdn.net/weixin_50409347/article/details/130511237

版权

在这里插入图片描述

Python 爬虫的解析方式是将从网页获取到的 HTML 内容转化为程序可读取和处理的数据。常见的解析方式有正则表达式解析、CSS 选择器解析和 XPath 节点提取解析。

文章目录

1. 正则表达式解析

正则表达式是一种描述字符串模式的语言，可以用来匹配和处理文本。在 Python 爬虫中，正则表达式通常用来处理网页内容中的文本信息，例如提取标题、正文、图片链接等。

以下是一个简单的正则表达式示例，用来匹配 HTML 中的图片链接：

import re

html_content = """
<html>
  <body>
    <img src="image.png" alt="image">
    <img src="image2.png" alt="image2">
  </body>
</html>
"""

pattern = r'<img.*?src="(.*?)".*?>'

images = re.findall(pattern, html_content)

print(images

最低0.47元/天解锁文章

weishaoonly

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python 爬虫】详细介绍三种解析方式：正则表达式解析、CSS 选择器解析和 XPath 节点提取解析

Python 爬虫的解析方式是将从网页获取到的 HTML 内容转化为程序可读取和处理的数据。常见的解析方式有正则表达式解析、CSS 选择器解析和 XPath 节点提取解析。
复制链接

扫一扫