Python 爬虫的解析方式是将从网页获取到的 HTML 内容转化为程序可读取和处理的数据。常见的解析方式有正则表达式解析、CSS 选择器解析和 XPath 节点提取解析。
1. 正则表达式解析
正则表达式是一种描述字符串模式的语言,可以用来匹配和处理文本。在 Python 爬虫中,正则表达式通常用来处理网页内容中的文本信息,例如提取标题、正文、图片链接等。
以下是一个简单的正则表达式示例,用来匹配 HTML 中的图片链接:
import re
html_content = """
<html>
<body>
<img src="image.png" alt="image">
<img src="image2.png" alt="image2">
</body>
</html>
"""
pattern = r'<img.*?src="(.*?)".*?>'
images = re.findall(pattern, html_content)
print(images