python中如何使用正则表达式提取数据

最新推荐文章于 2024-03-01 13:55:53 发布

xiaoweids

最新推荐文章于 2024-03-01 13:55:53 发布

阅读量1.2k

点赞数 2

分类专栏：编程语言 Python 文章标签：正则表达式 python 开发语言

本文链接：https://blog.csdn.net/weixin_45707610/article/details/131372098

版权

编程语言同时被 2 个专栏收录

1130 篇文章 4 订阅

订阅专栏

Python

463 篇文章 3 订阅

订阅专栏

本文主要介绍了python中如何使用正则表达式提取数据问题。具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数可创建一个模式字符串和可选的标志参数组成的一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	*匹配0次或多次。贪婪方式，re代表正则表达式
re+	+匹配1次或多次。
re?	?匹配0次或1次，非贪婪方式，匹配0次指表达式后面为空的也匹配
re{ n}	连续匹配 n 个前面表达式。例如， o{2}，连续匹配两次o, 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的两个 o。
re{ n,}	匹配 n 个前面表达式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。
re{ n, m}	表示匹配连续的前面的表达式至少n次，至多 m 次。表达式油{3,4} 就表示匹配连续的油字至少3次，至多 4 次
a\| b	匹配a或b
(re)	对正则表达式分组并记住匹配的文本

常用正则表达式实例

字符匹配

实例	描述
python	匹配 "python".

字符类

实例	描述
[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任何数字。类似于 [0123456789]
[a-z]	匹配任何小写字母
[A-Z]	匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了数字外的字符

特殊字符类

实例	描述
.	匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w	匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W	匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到第一个匹配。

# re.match()函数只能从起始的位置匹配，否则返回None

import re

matchObj = re.match('www', 'www.runoob.com')

print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配

print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配

# (0, 3)

# None

# 使用group(num) 或 groups() 函数来获取用来匹配的正在表达式提取的值。

if matchObj:

print("matchObj.group() : ", matchObj.group())

# 执行结果是matchObj.group() : www

# matchObj.group() 等同于 matchObj.group(0)，表示匹配到的完整文本字符

# print ("matchObj.group(1) : ", matchObj.group(1))

# print ("matchObj.group(2) : ", matchObj.group(2))

# re.search 扫描整个字符串并返回第一个成功的匹配。

import re

line = "Cats are smarter than dogs";

searchObj = re.search(r'(.*) are (.*?) ', line, re.M | re.I)

if searchObj:

print("searchObj.group() : ", searchObj.group())

print("searchObj.group(1) : ", searchObj.group(1))

print("searchObj.group(2) : ", searchObj.group(2))

# 执行结果

# searchObj.group() : Cats are smarter

# searchObj.group(1) : Cats

# searchObj.group(2) : smarter

# re.sub()用于替换字符串中的匹配项

import re

phone = "2004-959-559 # 这是一个国外电话号码"

# 删除字符串中的 Python注释,$匹配字符串的末尾。

# 把匹配到的字符串替换为空字符串

num = re.sub(r'#.*$', "", phone)

print("电话号码是: ", num)

# 电话号码是: 2004-959-559

# 删除非数字(-)的字符串,\D 匹配任意非数字

num = re.sub(r'\D', "", phone)

print("电话号码是 : ", num)

# 电话号码是 : 2004959559

"""

findall在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。

"""

import re

pattern = re.compile(r'\d+') # 创建个正着表达式对象，查找数字

result1 = pattern.findall('runoob 123 google 456')

result2 = pattern.findall('run88oob123google456', 0, 10)

result3 = pattern.search('runoob 123 google 456')

# 123 只匹配了一次，匹配首个符合要求的字符串

print(result1)

print(result2)

print(result3.group())

# 执行结果：

# ['123', '456']

# ['88', '12']

# 123

re.compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法格式为：

import re

pattern = re.compile(r'\d+') # 用于匹配至少一个数字

m = pattern.match('one12twothree34four') # 查找头部，没有匹配

print(m)

# None

m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配

print(m)

# None

m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配

print(m) # 返回一个 Match 对象

# <re.Match object; span=(3, 5), match='12'>

print(m.group(0)) # 可省略 0,获得整个匹配的子串时，可直接使用 group() 或 group(0)；

# '12'

print(m.start(0)) # 可省略 0,获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；

# 3

print(m.end(0)) # 可省略 0,获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；

5

print(m.span(0)) # 可省略 0,返回 (start(group), end(group))。

# (3, 5)

执行结果：

None
None
<re.Match object; span=(3, 5), match='12'>
12
3
5
(3, 5)

括号()-分组

括号称之为正则表达式的组选择。

组就是把正则表达式匹配的内容里面其中的某些部分标记为某个组。

我们可以在正则表达式中标记多个组

转自：微点阅读 https://www.weidianyuedu.com

xiaoweids

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中如何使用正则表达式提取数据

本文主要介绍了python中如何使用正则表达式提取数据问题。具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数可创建一个模式字符串和可选的标志参数组成的一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。
复制链接

扫一扫