正则表达式复习

最新推荐文章于 2024-09-09 18:34:56 发布

橙子icon

最新推荐文章于 2024-09-09 18:34:56 发布

阅读量117

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/weixin_44065078/article/details/105440224

版权

Python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

正则表达式--整理

1.为什么使用正则表达式？
2.re模块
3.匹配字符
4.匹配个数
5.匹配开头结尾
6.元字符串
7.匹配分组
8.贪婪和非贪婪
9.r的作用

1.为什么使用正则表达式？

为了下列场景中的需求，可以使用正则表达式非常简单的完成，这就是使用正则表达式的目的

在一个文件中，查找出itcast开头的语句
在一个文件中，找到含有itcast的语句
在一个文件中，找到邮箱为163或者126的所有邮件地址

2.re模块

通常正则表达式对字符串匹配的时候，可以使用re模块

import re

# 使用match方法进行匹配操作
result = re.match(正则表达式, 要匹配的字符串)

# 如果上一步匹配到数据, 可以使用group方法提取数据
result.group()

例如：
result = re.match('itcast', 'itcast.cn')
ret = result.group()
print(ret)   # itcast

3.匹配字符

字符	功能
.（点）	匹配任意1个字符（除了\n）
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空空，即空格、tab键
\S	匹配非空白
\w	匹配单词字符，即a-z、A-Z、0-9、_
\W	匹配非单词字符

4.匹配个数

字符	功能
*	匹配前一个字符出现0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少有一次
？	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m, n}	匹配前一个字符出现从m到n次

5.匹配开头结尾

字符	功能
^	匹配字符串开头
$	匹配字符串结尾

匹配163.com的邮箱地址

import re

email_list = ["xiaoWang@163.com", "xiaoWang@163.comheihei", ".com.xiaowang@qq.com"]
for email in email_list:
	ret = re.match("[\w]{4,20}@163\.com$", email)
	if ret:
    	print("%s 是符合规定的邮件地址,匹配后的结果是:%s" % (email, ret.group()))
    else:
        print("%s 不符合要求" % email)

6.元字符串

**正则表达式使用反斜杠" \ "来代表特殊形式或用作转义字符

7.匹配分组

字符	功能
\|	匹配左右任意一个表达式
(ab)	将括号中字符作为一个分组
\num	引用分组num匹配到的字符串
(?P<name>)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

匹配0-100之间的数字

import re

ret = re.match("[1-9]?\d","8")
print(ret.group())  # 8

ret = re.match("[1-9]?\d","78")
print(ret.group())  # 78

# 不正确的情况
ret = re.match("[1-9]?\d","08")
print(ret.group())  # 0

# 修正之后的
ret = re.match("[1-9]?\d$","08")
if ret:
    print(ret.group())
else:
    print("不在0-100之间")

# 添加|
ret = re.match("[1-9]?\d$|100","8")
print(ret.group())  # 8

ret = re.match("[1-9]?\d$|100","78")
print(ret.group())  # 78

ret = re.match("[1-9]?\d$|100","08")
# print(ret.group())  # 不是0-100之间

ret = re.match("[1-9]?\d$|100","100")
print(ret.group())  # 100

匹配出163、126、qq邮箱

import re

email_list = ["test@163.com", "test@126.com", "test@qq.com", "test@gmail.com"]
for email in email_list:
	ret = re.match("[\w]{4,20}@(163|126|qq)\.com$", email)
	if ret:
    	print("%s 是符合规定的邮件地址,匹配后的结果是:%s" % (email, ret.group()))
    else:
        print("%s 不符合要求" % email)

不是以4、7结尾的手机号码（11位）

import re

tels = ["13100001234", "18912344321", "10086", "18800007777"]

for tel in tels:
    ret = re.match("1\d{9}[0-35-68-9]", tel)
    if ret:
        print(ret.group())
    else:
        print("%s 不是想要的手机号" % tel)

提取区号和电话号码

>>> ret = re.match("([^-]*)-(\d+)","010-12345678")
>>> ret.group()
'010-12345678'
>>> ret.group(1)
'010'
>>> ret.group(2)
'12345678'

8.贪婪和非贪婪

贪婪：总是匹配尽可能多的字符
非贪婪：相反，总是尝试匹配尽可能少的字符

在 “*”, “?”, “+”, “{m,n}” 后面加上？，使贪婪变成非贪婪

>>> re.match(r"aa(\d+)","aa2343ddd").group(1)
'2343'
>>> re.match(r"aa(\d+?)","aa2343ddd").group(1)
'2'
>>> re.match(r"aa(\d+)ddd","aa2343ddd").group(1) 
'2343'
>>> re.match(r"aa(\d+?)ddd","aa2343ddd").group(1)
'2343'
>>>

9.r的作用

python中字符串签名加上 r 表示原生字符串

r 的好处
有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

橙子icon

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式复习

正则表达式--整理1.为什么使用正则表达式？2.re模块3.匹配字符4.匹配个数5.匹配开头结尾6.元字符串7.匹配分组8.贪婪和非贪婪9.r的作用1.为什么使用正则表达式？为了下列场景中的需求，可以使用正则表达式非常简单的完成，这就是使用正则表达式的目的在一个文件中，查找出itcast开头的语句在一个文件中，找到含有itcast的语句在一个文件中，找到邮箱为163或者126的所有邮件...
复制链接

扫一扫

专栏目录