爬虫从入门到入预（4）

codting

已于 2022-03-19 15:06:56 修改

阅读量153

点赞数

分类专栏：爬虫文章标签：爬虫

于 2022-03-02 18:11:21 首次发布

本文链接：https://blog.csdn.net/weixin_43655132/article/details/123236515

版权

爬虫专栏收录该内容

22 篇文章 2 订阅

订阅专栏

今天学习的内容开始算的上是正式摸到了爬虫的大门。

主要内容：数据解析式，正则表达式，re解析式。

正则表达式其实感觉还好，主要是多理解，慢慢看总会越看越快的。老师的代码可以加上自己的小创意，出bug了不要怕，自己去解决才能相互印证所学知识。正好今天学正则表达式，下午就看了一篇热门的正则表达式，我觉得写的还不错，贴在这里：

【Pyhton 爬虫】正则表达式_Riding the snail chase missiles ~-CSDN博客

今天的代码量偏少，主要都是讲的正则表达式的内容

正则表达式：元字符，量词，贪婪匹配，惰性匹配

re模块：基于python，分为：findall,finditer,search,match,compile.

findall：匹配所有满足要求的字符串，返回列表，列表效率不高，所以主要使用finditer，finditer返回的是迭代器，循环打印它的group()才能查看结果。search是返回第一次匹配成功的结果，match更加极端，正则表达式需求的字符没有出现在搜索字符串开头就会报错。

利用（？P<分组名称>正则表达式）就可以在循环打印的时候分别打印不同的分组数据

下面就是今天的所有代码。

#re解析，正则表达式，速度最快regular expression,难度大，(https://tool.oschina.net/regex正则表达式在线测试网站)
#bs4解析，最简单，执行效率不高
#xpath解析，简单，规则简单，舒服

#re解析
#元字符：具有固定含义的特殊字符
#.：匹配除了换行符以外的所有字符
#\w:匹配数字或者字母，换成大写W则表示取反，匹配除了数字和字母以外的所有
#\s:匹配所有空白符，换行，制表，空格，大写S匹配非空白符
#\d:匹配数字
#\n:匹配换行符
#\t:匹配制表符
#^,$匹配字符的开始和结束，在爬虫中使用不多，但是在校验时使用较多
#a|b：表示或者
#要进行正则式匹配时，括号要尤其注意！
#():匹配括号内表达式
#[]:匹配字符组内所有字符，例如匹配所有数字字母下划线[a-zA-Z0-9_],在[]最前加上^表示取反，例如[^......]

#量词：
#*:重复0次或者更多次
#+:重复1次或者更多次
#?:重复0次或者1次
#{n}:重复n次
#{n,}:重复n次或者更多次
#{n,m}:重复n到m次

#贪婪匹配:.*
#惰性匹配:.*？尽可能少匹配，.表示任意匹配，*表示重复任意次，?表示最多一次。整体表达尽可能少的匹配（利用回溯算法）


# #re模块
# #findall:匹配字符串中所有符合正则表达式的子字符串
import re
# lst=re.findall(r"\d+","我的电话号是：10010")
# print(lst)
#
# #finditer：匹配字符串中所有的内容，返回迭代器，从迭代器中获得内容使用.group(),迭代器的效率高于列表
# it=re.finditer(r"\d+","我的电话号是：10010")
# print(it)
# for i in it:
#  print(i.group())

# #search,找到一个结果就返回，返回的对象时match对象，需要用group（）提取数据
# ser=re.search(r"\d+","我的电话号是：10010")
# print(ser.group())

# #match是从头开始匹配，如果开头没有匹配上直接报错
# s=re.match(r"\d+","我的电话号是：10010")
# print(s.group())

# #预加载正则表达式
# obj=re.compile(r"\d+")
#
# ret=obj.finditer("我的生日是:19961112,我老婆的生日是：19980407")
# for r in ret:
#  print(r.group())


s="""
<div class='jack'><span id='1'>杰克</span></div>
<div class='smith'><span id='2'>史密斯</span></div>
<div class='white'><span id='3'>怀特</span></div>
<div class='pink'><span id='4'>小粉</span></div>
<div class='mike'><span id='5'>麦克</span></div>
<div class='lucky'><span id='6'>幸运</span></div>
<div class='piggy'><span id='7'>小猪</span></div>
<div class='pappy'><span id='8'>小小猪</span></div>
<div class='hammer'><span id='9'>翰墨</span></div>
<div class='gump'><span id='10'>甘</span></div>
<div class='forrest'><span id='11'>森林</span></div>
"""
#(?P<分组名字>正则表达式)这样写了之后，在后面的循环打印分组时就可以把所需信息单独提取出来
obj=re.compile(r"<div class='.*?'><span id='(?P<xh>\d+)'>(?P<rm>.*?)</span></div>",re.S)#S参数能让.匹配换行符

result=obj.finditer(s)

for r in result:
 print(r.group("xh"))
 print(r.group("rm"))

codting

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫从入门到入预（4）

今天学习的内容开始算的上是正式摸到了爬虫的大门。主要内容：数据解析式，正则表达式，re解析式。正则表达式其实感觉还好，主要是多理解，慢慢看总会越看越快的。老师的代码可以加上自己的小创意，出bug了不要怕，自己去解决才能相互印证所学知识。正好今天学正则表达式，下午就看了一篇热门的正则表达式，我觉得写的还不错，贴在这里：【Pyhton 爬虫】正则表达式_Riding the snail chase missiles ~-CSDN博客今天的代码量偏少，主要都是讲的正则表达式的内容正则表达式：.
复制链接

扫一扫

专栏目录