【爬虫】一文掌握爬虫数据解析相关内容-正则 bs4 lxml

最新推荐文章于 2022-12-06 18:28:57 发布

桑桑在路上

最新推荐文章于 2022-12-06 18:28:57 发布

阅读量3.7k

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_51656605/article/details/113642546

版权

本文详细介绍了Python爬虫数据解析，包括正则表达式的match、search、findall方法，以及BS4库的基础使用和lxml的解析功能。通过实例演示了如何使用这些工具爬取并解析网页数据，特别是从糗事百科抓取图片的项目需求。

摘要由CSDN通过智能技术生成

本系列为自己学习爬虫的相关笔记，如有误，欢迎大家指正

引入

回顾requests模块实现数据爬取的流程
- 指定url
- 发起请求
- 获取响应数据
- 持久化存储
其实，在上述流程中还需要较为重要的一步，就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求，我们都会指定去使用聚焦爬虫，也就是爬取页面中指定部分的数据值，而不是整个页面的数据。至此，我们的数据爬取的流程可以修改为：
- 指定url
- 发起请求
- 获取响应数据
- 数据解析
- 持久化存储

python如何实现数据解析

正则表达式
xpath解析
bs4解析

数据解析原理概述

解析的局部的文本内容都会在标签直接或者标签对应的属性中进行存储
进行指定标签的定位
标签或者标签对应的属性中存储的数据值进行提取（解析）

常用正则表达式回顾

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ouzEEzPU-1612418080784)(.\images\image-20210201141030759.png)]

re.match方法

从字符串起始位置匹配一个模式，如果从起始位置匹配不了，match()就返回none。

re.match的语法为re.match(pattern, string, flags=0)，其中pattern是正则表达式，包含一些特殊的字符，string为要匹配的字符串，flags用来控制正则表达式的匹配方式，如是否区分大小写、多行匹配等。

import re
m = re.match('www', 'www.santostang.com')
print ("匹配的结果:  ", m)    
print ("匹配的起始与终点:  ", m.span()) 
print ("匹配的起始位置:  ", m.start())
print ("匹配的终点位置:  ", m.end())

匹配的结果: <_sre.SRE_Match object; span=(0, 3), match=‘www’>

匹配的起始与终点: (0, 3)

匹配的起始位置: 0

匹配的终点位置: 3

re.search方法

re.match只能从字符串的起始位置进行匹配，而re.search扫描整个字符串并返回第一个成功的匹配

import re
m_match = re.match('com', 'www.santostang.com')
m_search = re.search('com', 'www.santostang.com')
print (m_match)
print (m_search)

None

<_sre.SRE_Match obj

最低0.47元/天解锁文章

桑桑在路上

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录