爬虫从入门到入预(4)

今天学习的内容开始算的上是正式摸到了爬虫的大门。

主要内容:数据解析式,正则表达式,re解析式。

正则表达式其实感觉还好,主要是多理解,慢慢看总会越看越快的。老师的代码可以加上自己的小创意,出bug了不要怕,自己去解决才能相互印证所学知识。正好今天学正则表达式,下午就看了一篇热门的正则表达式,我觉得写的还不错,贴在这里:

 【Pyhton 爬虫】正则表达式_Riding the snail chase missiles ~-CSDN博客

今天的代码量偏少,主要都是讲的正则表达式的内容

正则表达式:元字符,量词,贪婪匹配,惰性匹配

re模块:基于python,分为:findall,finditer,search,match,compile.

findall:匹配所有满足要求的字符串,返回列表,列表效率不高,所以主要使用finditer,finditer返回的是迭代器,循环打印它的group()才能查看结果。search是返回第一次匹配成功的结果,match更加极端,正则表达式需求的字符没有出现在搜索字符串开头就会报错。

利用(?P<分组名称>正则表达式)就可以在循环打印的时候分别打印不同的分组数据

下面就是今天的所有代码。

#re解析,正则表达式,速度最快regular expression,难度大,(https://tool.oschina.net/regex正则表达式在线测试网站)
#bs4解析,最简单,执行效率不高
#xpath解析,简单,规则简单,舒服

#re解析
#元字符:具有固定含义的特殊字符
#.:匹配除了换行符以外的所有字符
#\w:匹配数字或者字母,换成大写W则表示取反,匹配除了数字和字母以外的所有
#\s:匹配所有空白符,换行,制表,空格,大写S匹配非空白符
#\d:匹配数字
#\n:匹配换行符
#\t:匹配制表符
#^,$匹配字符的开始和结束,在爬虫中使用不多,但是在校验时使用较多
#a|b:表示或者
#要进行正则式匹配时,括号要尤其注意!
#():匹配括号内表达式
#[]:匹配字符组内所有字符,例如匹配所有数字字母下划线[a-zA-Z0-9_],在[]最前加上^表示取反,例如[^......]

#量词:
#*:重复0次或者更多次
#+:重复1次或者更多次
#?:重复0次或者1次
#{n}:重复n次
#{n,}:重复n次或者更多次
#{n,m}:重复n到m次

#贪婪匹配:.*
#惰性匹配:.*?尽可能少匹配,.表示任意匹配,*表示重复任意次,?表示最多一次。整体表达尽可能少的匹配(利用回溯算法)


# #re模块
# #findall:匹配字符串中所有符合正则表达式的子字符串
import re
# lst=re.findall(r"\d+","我的电话号是:10010")
# print(lst)
#
# #finditer:匹配字符串中所有的内容,返回迭代器,从迭代器中获得内容使用.group(),迭代器的效率高于列表
# it=re.finditer(r"\d+","我的电话号是:10010")
# print(it)
# for i in it:
#  print(i.group())

# #search,找到一个结果就返回,返回的对象时match对象,需要用group()提取数据
# ser=re.search(r"\d+","我的电话号是:10010")
# print(ser.group())

# #match是从头开始匹配,如果开头没有匹配上直接报错
# s=re.match(r"\d+","我的电话号是:10010")
# print(s.group())

# #预加载正则表达式
# obj=re.compile(r"\d+")
#
# ret=obj.finditer("我的生日是:19961112,我老婆的生日是:19980407")
# for r in ret:
#  print(r.group())


s="""
<div class='jack'><span id='1'>杰克</span></div>
<div class='smith'><span id='2'>史密斯</span></div>
<div class='white'><span id='3'>怀特</span></div>
<div class='pink'><span id='4'>小粉</span></div>
<div class='mike'><span id='5'>麦克</span></div>
<div class='lucky'><span id='6'>幸运</span></div>
<div class='piggy'><span id='7'>小猪</span></div>
<div class='pappy'><span id='8'>小小猪</span></div>
<div class='hammer'><span id='9'>翰墨</span></div>
<div class='gump'><span id='10'>甘</span></div>
<div class='forrest'><span id='11'>森林</span></div>
"""
#(?P<分组名字>正则表达式)这样写了之后,在后面的循环打印分组时就可以把所需信息单独提取出来
obj=re.compile(r"<div class='.*?'><span id='(?P<xh>\d+)'>(?P<rm>.*?)</span></div>",re.S)#S参数能让.匹配换行符

result=obj.finditer(s)

for r in result:
 print(r.group("xh"))
 print(r.group("rm"))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值