Python爬虫:4_Re解析、正则表达式、re模块

本文介绍了Python爬虫中正则表达式的重要概念,包括常用的元字符、量词的使用,详细讲解了贪婪匹配和惰性匹配的差异,并探讨了re模块的关键功能和应用。
摘要由CSDN通过智能技术生成

常用元字符

.         匹配除换行符以外的任意字符
\w        匹配字母或数字或下划线
\s        匹配任意的空白符
\d        匹配数字
\n        匹配一个换行符
\t        匹配一个制表符

^         匹配字符串的开始
$         匹配字符串的结尾

\W        匹配非字母或数字或下划线
\D        匹配非数字
\S        匹配非空白符
a|b       匹配字符a或字符b
()        匹配括号内的表达式,也表示一个组
[...]     匹配字符组中的字符
[^...]    匹配除了字符组中字符的所有字符

量词

控制元字符出现的次数

*        重复零次或更多次
+        重复一次或更多次
?        重复零次或一次
{n}      重复n次
{n,}     重复n次或更多次
{n,m}    重复n到m次

贪婪匹配和惰性匹配

.*    贪婪匹配
.*?   惰性匹配

re模块

import re

# findall 匹配字符串中所有符合正则的内容
lst = re.findall(r'\d+', '我手机号码是:123456789')
print(lst)

# finditer 匹配字符串中所有的内容[返回的是迭代器]
itr = re.finditer(r'\d+', '我手机号码是:123456789')
for i in itr:
    print(i.group())

# search返回的结果是match对象,使用.group()拿数据;找到一个结果就返回
s = re.search(r'\d+', '我手机号码是:123456789')
print(s.group())

# match是从头开始匹配
ss = re.match(r'\d+', '我手机号码是:123456789')
print(ss.group())

# 预加载正则表达式
obj = re.compile(r'\d+')
ret = obj.finditer('我手机号码是:123456789')
for j in ret:
    print(j.group())

# 例子
sss = """
<div class='iphone'><span id='1'>苹果</span></div>
<div class='sumsang'><span id='2'>三星</span></div>
<div class='huawei'><span id='3'>华为</span></div>
<div class='xiaomi'><span id='4'>小米</span></div>
"""

# re.S 让.可以匹配换行符
# (?P<分组名字>正则) 可以单独从正则匹配的内容中再次提取想要的内容
obj = re.compile(r"<div class='(?P<english>.*?)'><span id='(?P<id>\d+)'>(?P<chinese>.*?)</span></div>", re.S)
ret = obj.finditer(sss)
for t in ret:
    print('No.{0} - English Name:{1} - Chinese Name:{2}'.format(t.group('id'), t.group('english'), t.group('chinese')))
    
"""
No.1 - English Name:iphone - Chinese Name:苹果
No.2 - English Name:sumsang - Chinese Name:三星
No.3 - English Name:huawei - Chinese Name:华为
No.4 - English Name:xiaomi - Chinese Name:小米
"""

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值