正则表达式

最新推荐文章于 2023-05-06 14:07:58 发布

pluto_peach

最新推荐文章于 2023-05-06 14:07:58 发布

阅读量103

点赞数 1

本文链接：https://blog.csdn.net/weixin_45415743/article/details/98651628

版权

正则表达式

正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

给定的字符串是否符合正则表达式的过滤逻辑（匹配）
通过正则表达式，从字符串中获得我们想要的特定的部分。

使用场景：

爬虫
数据挖掘和分析

在Python中使用正则需要导入re包

import re

加入存在 a = “asd32sd2d333”,提取32，2，333，如何实现？

>>> import re
>>> a = "sdq23r6yy76"
>>> m = r'[0-9]+'
>>> num = re.findall(m,a)
>>> num
['23', '6', '76']

s = "<table><tr>hello world 18111234589<tr><tr><span>name:张三,tel:18711001111</span></tr></table>"
start = s.find('<span>')
end = s.find('</span>')
print(s[start+len('<span>'):end])
# name:张三,tel:18711001111

首先我们来看两个例子来体验一下正则表达式的威力吧：

引入案例1

比如，已知一个列表：

li = [“Chinese”, “China”, “English”, “Britain”, “Canada”, “New Zealand”]

找出以Ch开头的字串。

# 法1
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
lt = []
for i in li:
	if i[0:2] == "Ch":
		lt.append(i)
print(lt)
# 法2
li = ["Chinese", "China", "English", "Britain", "Canada", "New Zealand"]
print([i for i in li if i[0:2]=="Ch"])

Python正则表达式的基础

>>> import re
>>> dir(re)
['A', 'ASCII', 'DEBUG', 'DOTALL', 'I', 'IGNORECASE', 'L', 'LOCALE', 'M', 'MULTILINE', 'RegexFlag', 'S', 'Scanner', 'T', 'TEMPLATE', 'U', 'UNICODE', 'VERBOSE', 'X', '_MAXCACHE', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', '__version__', '_alphanum_bytes', '_alphanum_str', '_cache', '_compile', '_compile_repl', '_expand', '_locale', '_pattern_type', '_pickle', '_subx', 'compile', 'copyreg', 'enum', 'error', 'escape', 'findall', 'finditer', 'fullmatch', 'functools', 'match', 'purge', 'search', 'split', 'sre_compile', 'sre_parse', 'sub', 'subn', 'template']
>>>

re.match(pattern,string,flags = 0)
- 作用：从字符串的开头开始匹配一个模式
  - 匹配成功，返回一个匹配成功的对象
  - 否则，返回None
- 参数说明：
  - pattern：匹配的正则表达式
  - string ：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多行，是否区分大小写。
re.group([group1, …]) 字符串或者元组
- 作用：获得一个或者多个分组截获的字符串
- 制定多个参数时就会以元组形式返回
- group1可以使用编号，也可以使用别名
- 编号0代表匹配整个子串，默认返回group(0)
- 如果没有截获字符串，返回None。
- 截获了多次的组，返回最后一次截获的子串
re.groups([default = None]) tuple
- 作用：以元组形式返回全部分组截获的字符串。类似调用re.group(1,2,…,last)
- 如果没有截获字符串的组，默认返回None。

单字符匹配规则

字符	功能
.	匹配任意一个字符
[]	匹配[]中列举的字符
\d	匹配数字（0-9）
\D	匹配非数字（\d取反）
\w	匹配字，A - Z ,a -z ,0 - 9 ,__
\W	\w取反
\s	匹配空白字符，比如空格 \tab
\S	\s取反

import re

m = re.match('.','mAD') # 首字符
print(m.group())	# m
m = re.match('.','d')
print(m.group())	# d
m = re.match('.','\n')  
print(m.group()) # AttributeError: 'NoneType' object has no attribute 'group'

m = re.match('s','sad')	# 首字母，分大小写
print(m.group()) # s
m = re.match('[sS]','sad')
print(m.group()) # s
m = re.match('[sS]','SAD')
print(m.group()) # S

m = re.match('[0-9]','66city')	# 0-9的数字
print(m.group())	#   6
m = re.match('[0123456789]','66city')
print(m.group())	#	6

m = re.match(r'\d','13sd21')	# 数字
print(m.group()) # 1
m = re.match(r'\D','sd21')	# 非数字
print(m.group())	#s
m = re.match(r'\w','sd21')	# 数字、大小写字母、下划线
print(m.group())	# s
m = re.match(r'\w','13sd21')
print(m.group())	# 1
m = re.match(r'\w','_13sd21')
print(m.group())	# _
m = re.match(r'\W','#13sd21')	# 非数字、大小写字母、下划线
print(m.group())	# #
m = re.match(r'\s','  13sd21')	#首字符空格
print(m.group())	#  ' '
m = re.match(r'\S','13sd21')	# 非空格
print(m.group())	# 1

数量匹配规则

字符	功能
*	匹配前一个字符出现0次多次或者无限次，可有可无，可多可少
+	匹配前一个字符出现1次多次或者无限次，直到出现一次
？	匹配前一个字符出现1次或者0次，要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,}	匹配前一个字符至少出现m次
{m,n}	匹配前一个字符出现m到n次

手机号匹配规则

全是数字、都是11位数、第一位是1，第二位是35678中的一位

pattern = input('请输入匹配规则：')
sr = input("请输入匹配字符串：")
m = re.match(pattern,sr)
print(m.group())
# 请输入匹配规则：1[35678]\d{9}
# 请输入匹配字符串：13045678900
# 13045678900

表示边界

字符	功能
^	匹配字符串开头
$	匹配字符串的结尾
\b	匹配一个单词的边界
\B	匹配非单词边界

# 请输入匹配规则：^\w+\s\bty\b\s\w+
# 请输入匹配字符串：ci ty university
# ci ty university

# 0-100 以内的数
>>> pat = "0$|[1-9]\d{0,1}$|100$"
>>> res = re.match(pat,'0')
>>> res.group()
'0'
>>> res = re.match(pat,'23')
>>> res.group()
'23'

匹配分组

字符	功能
\|	匹配左右任意一个表达式
（ab)	将括号中的字符作为一个分组
\num	引用分组num匹配到的字符串
(？p)	分组起别名
(？p=name)	引用别名为name分组匹配到的字符串

re.search(pattern,str,flags=0)
- 作用：扫描整个字符串，返回第一次成功匹配对象
- 如果匹配失败，返回None
- 参数说明：
  - pattern：匹配的正则表达式
  - string ：要匹配的字符串
  - flags：标志位，用于控制正则表达式的匹配方式。比如是否匹配多行，是否区分大小写。

print(re.search('yun','Aliyun is a.').group())
# yun

re.findall(pattern,str,flags =0)
- 作用：获取字符串所有匹配的子串，并以列表形式返回。

print(re.findall('yun','Aliyun is a yun .'))
# ['yun', 'yun']

re.finditer(pattern,str,flag=0)
- 作用：获取字符串所有匹配的子串，并返回一个迭代器。

re.match()和re.search()的区别

re.match()从字符串开头开始匹配，如果匹配失败，None；
re.search()匹配整个字符串，直到找到一个匹配，如果匹配失败，None

pluto_peach

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式

正则表达式正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。给定的字符串是否符合正则表达式的过滤逻辑（匹配）通过正则表达式，从字符串中获得我们想要的特定的部分。使用场景：爬虫数据挖掘和分析在Python中使用正则...
复制链接

扫一扫