本系列为自己学习爬虫的相关笔记,如有误,欢迎大家指正
引入
- 回顾requests模块实现数据爬取的流程
- 指定url
- 发起请求
- 获取响应数据
- 持久化存储
- 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。至此,我们的数据爬取的流程可以修改为:
- 指定url
- 发起请求
- 获取响应数据
- 数据解析
- 持久化存储
python如何实现数据解析
- 正则表达式
- xpath解析
- bs4解析
数据解析原理概述
- 解析的局部的文本内容都会在标签直接或者标签对应的属性中进行存储
- 进行指定标签的定位
- 标签或者标签对应的属性中存储的数据值进行提取(解析)
常用正则表达式回顾
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ouzEEzPU-1612418080784)(.\images\image-20210201141030759.png)]
re.match方法
从字符串起始位置匹配一个模式,如果从起始位置匹配不了,match()就返回none。
re.match的语法为re.match(pattern, string, flags=0),其中pattern是正则表达式,包含一些特殊的字符,string为要匹配的字符串,flags用来控制正则表达式的匹配方式,如是否区分大小写、多行匹配等。
import re
m = re.match('www', 'www.santostang.com')
print ("匹配的结果: ", m)
print ("匹配的起始与终点: ", m.span())
print ("匹配的起始位置: ", m.start())
print ("匹配的终点位置: ", m.end())
匹配的结果: <_sre.SRE_Match object; span=(0, 3), match=‘www’>
匹配的起始与终点: (0, 3)
匹配的起始位置: 0
匹配的终点位置: 3
re.search方法
re.match只能从字符串的起始位置进行匹配,而re.search扫描整个字符串并返回第一个成功的匹配
import re
m_match = re.match('com', 'www.santostang.com')
m_search = re.search('com', 'www.santostang.com')
print (m_match)
print (m_search)
None
<_sre.SRE_Match obj