【爬虫】一文掌握爬虫数据解析相关内容-正则 bs4 lxml

本系列为自己学习爬虫的相关笔记,如有误,欢迎大家指正

引入

  • 回顾requests模块实现数据爬取的流程
    • 指定url
    • 发起请求
    • 获取响应数据
    • 持久化存储
  • 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。至此,我们的数据爬取的流程可以修改为:
    • 指定url
    • 发起请求
    • 获取响应数据
    • 数据解析
    • 持久化存储

python如何实现数据解析

  • 正则表达式
  • xpath解析
  • bs4解析

数据解析原理概述

  • 解析的局部的文本内容都会在标签直接或者标签对应的属性中进行存储
  • 进行指定标签的定位
  • 标签或者标签对应的属性中存储的数据值进行提取(解析)

常用正则表达式回顾

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ouzEEzPU-1612418080784)(.\images\image-20210201141030759.png)]

re.match方法

从字符串起始位置匹配一个模式,如果从起始位置匹配不了,match()就返回none。

re.match的语法为re.match(pattern, string, flags=0),其中pattern是正则表达式,包含一些特殊的字符,string为要匹配的字符串,flags用来控制正则表达式的匹配方式,如是否区分大小写、多行匹配等。

import re
m = re.match('www', 'www.santostang.com')
print ("匹配的结果:  ", m)    
print ("匹配的起始与终点:  ", m.span()) 
print ("匹配的起始位置:  ", m.start())
print ("匹配的终点位置:  ", m.end())

匹配的结果: <_sre.SRE_Match object; span=(0, 3), match=‘www’>

匹配的起始与终点: (0, 3)

匹配的起始位置: 0

匹配的终点位置: 3

re.search方法

re.match只能从字符串的起始位置进行匹配,而re.search扫描整个字符串并返回第一个成功的匹配

import re
m_match = re.match('com', 'www.santostang.com')
m_search = re.search('com', 'www.santostang.com')
print (m_match)
print (m_search)

None

<_sre.SRE_Match object; span=(15, 18), match=‘com’>

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值