Python高级——09正则表达式

至尊鑫仔

已于 2022-07-25 15:04:30 修改

阅读量72

点赞数

分类专栏： Python高阶文章标签： python

于 2022-04-23 15:38:29 首次发布

本文链接：https://blog.csdn.net/weixin_44008251/article/details/124364836

版权

Python高阶专栏收录该内容

9 篇文章 0 订阅

订阅专栏

9.1. 今日目标

9.2.【了解】正则表达式概述

正则表达式概念：规则表达式（一套特殊的规则）
正则表达式的作用：
- 验证数据的有效性（查找）
- 替换文本内容
- 从字符串中提取子字符串（爬虫思想）

9.3.【了解】测试工具介绍

regexbuddy 用来测试正则表达式的正确性
使用：
- 选择 python3.6
- test 选项卡

9.4.【记忆】匹配单个字符

. 匹配任意单个字符(除\n)
[] 列举，匹配[] 中列举的内容

[ab] 匹配 a 或者 b

[a-z] 匹配所有的小写字母

[A-Z] 匹配大写字母

[0-9] 匹配数字

[a-zA-Z] 匹配所有的小写字母和大写字母
\d 匹配所有的数字等价于 [0-9]
\D 非数字
\s 空格
\S 非空格
\w 匹配字母、数字、下划线

[a-zA-Z0-9_]
\W 非数字、非字母、非下划线

9.5.【记忆】匹配多个字符

* 表示前一个字符出现 0次或者无限次
+ 表示前一个字符出现 1次或者无限次
? 表示前一个字符出现 0 次或者 1次（要不不出现，要不只能出现一次）
{m} 表示前一个字符，连续出现 m次
{m,n} 表示前一个字符，连续出现最少m次，最多n次

m 一定要小于 n

9.6.【记忆】匹配开头结尾

^ 表示匹配以后一个字符开头
^ 有两个作用：

1）匹配以指定字符开头
```
^[a-zA-Z_]+\w   # 必须以 小写字母、大写字母、下花线开头
```
2）用在 [] 内部，用于取反
```
[^he] 匹配不含有 h 和 e 的字符
```
$ 表示匹配以前一个字符结尾

\d$ 以数字结尾

9.7.【理解】re模块操作

re模块的作用： python提供的用于正则操作的模块

re模块的使用步骤：

导入模块

import re

使用match() 方法进行检测

# 2、通过 match 方法，验证正则
# re.match("正则表达式", "要验证/检测的字符串")
# match() 方法如果匹配成功，返回 match object 对象
# match() 方法如果匹配失败，返回 None
#        正则字符串    要检测的内容
result = re.match("\w{4,20}@163\.com$", "hello@163.com")

判断是否检测/匹配成功

if result:

print(“成功”)

else:

print(“失败”)
取出匹配的具体内容

result.group() 获取匹配的具体内容

9.8.【理解】匹配分组之"|"

| 的作用：或者关系，多个正则表达式满足任意一个都可以

^[0-9]?[0-9]$|^100$   # ^[0-9]?[0-9]$ 满足或者 ^100$ 满足任意一个，返回值都是一个
match object 对象(匹配成功)

9.9.【理解】匹配分组之"()"

分组，整体匹配
```
result = re.match("\w{4,20}@(163|126|qq|sina)\.com$", "hello@126.com")
```
把 @ … “.com” 之间的内容整体进行匹配
提取子字符串

1 2

result = re.match(“(\d{3,4})-(\d{7,8})”, “010-12345678”)`

result.group() 获取的是匹配的结果

result.group(1) 获取的是第一个括号中的内容

result.group(2) 获取的是第二个括号中的内容

9.10.【理解】匹配分组之‘\’

引用分组

\1 表示引用第一组

# result = re.match("<([a-zA-Z0-9]+)>.*</\\1>", "<html>asdbasldfj</html>")
result = re.match("<([a-zA-Z0-9]+)><([a-zA-Z0-9]+)>.*</\\2></\\1>", "<html><h1>asdbj</h1></html>")

\\1 表示引用第一组，\\是转义字符，转义后代表一个 \

\\2 表示引用第二组

分组起别名

起名

?P 给分组起别名，别名为name1
引用别名

?P=name1 引用别名为 name1的分组

整体代码：

result = re.match("<(?P<name1>[a-zA-Z0-9]+)><(?P<name2>[a-zA-Z0-9]+)>.*</(?P=name2)></(?P=name1)>", "<html><h1>asdbj</h1></html>")

9.11.【理解】re模块的高级用法

search() 在需要匹配的字符串中搜索要匹配的内容

result = re.search(“\d+”, “阅读次数:9999”)

知道 match 和 search的区别
# 1)match 从需要检测.group的字符串的开头位置匹配，如果失败返回 None
# 2)search 从需要检测的字符串中搜索满足正则的内容，有则返回match object对象

findall() 在需要匹配的字符串中查找所有满足正则的内容，返回值是列表

result = re.findall(“\d+”, “阅读次数:9999,转发次数：6666,评论次数：38”)
sub(“正则表达式”, “新的内容”, “要替换的字符串”) 字符串替换（按照正则，查找字符串并且替换为指定的内容）返回值是替换后的字符串

result = re.sub(“\d+”, “10000”, “阅读次数:9999,转发次数：6666,评论次数：38”)
split(“正则表达式”, “待拆分的字符串”) 按照正则拆分字符串，返回值是一个列表

result = re.split("😐 ", “info:hello@163.com zhangsan lisi”)

9.12.【理解】贪婪和非贪婪

贪婪：默认，表示在满足正则的情况尽可能多的取内容
非贪婪：表示在满足正则的情况下，尽可能少的取内容
贪婪的转变为非贪婪：在 * ? + {} 的后面再加上？就可以了

result = re.match(“aaa(\d+?)”, “aaa123456”)

9.13.【记忆】r的作用

r的作用：让正则中的 \ 表示原生的含义，仅仅对 \起作用

9.14.【应用】案例:《简单爬虫-批量获取电影下载链接》

思路：

一、定义函数获取列表页的内容页地址 get_movie_links()
1、定义列表的地址 http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
2、打开url地址，获取数据
3、解码获取到的数据
4、使用正则得到所有的影片内容也地址

4.1 遍历，取出内容页地址

4.2 拼接内容页地址

4.3 打开内容页地址

4.4 获取数据，并读取

4.5 解码内容页数据，得到html内容页文本

4.6 使用正则，获取下载地址的连接

4.7 把影片信息和下载链接，保存到字典中

4.8 返回字典

二、主函数 main

1、调用 get_movie_lisgt() ，得到字典

2、遍历字典，显示下载的内容

9.15. 知识总结

至尊鑫仔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python高级——09正则表达式

9.1. 今日目标9.2.【了解】正则表达式概述正则表达式概念：规则表达式（一套特殊的规则）正则表达式的作用：验证数据的有效性（查找）替换文本内容从字符串中提取子字符串（爬虫思想）9.3.【了解】测试工具介绍regexbuddy 用来测试正则表达式的正确性使用：选择 python3.6test 选项卡9.4.【记忆】匹配单个字符. 匹配任意单个字符(除\n)[] 列举，匹配[] 中列举的内容[ab] 匹配 a 或者 b[a-z]
复制链接

扫一扫