文本处理常用方法

最新推荐文章于 2023-06-05 00:06:30 发布

FibonacciCode

最新推荐文章于 2023-06-05 00:06:30 发布

阅读量637

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/yuebowhu/article/details/106994334

版权

匹配模式字符串不要有任何空格和变量，重要！重要！重要！

re

准备正则表达式

在正则表达式中，如果直接给出字符，就是精确匹配。
\d 可以匹配一个数字
\W 匹配非字母数字及下划线
\w 可以匹配一个字母或数字
\s 空格
要匹配变长的字符，在正则表达式中，用*表示任意个字符（包括0个），用+表示至少一个字符，用?表示0个或1个字符，用{n}表示n个字符，用{n,m}表示n-m个字符：
例：\d{3}\s+\d{3,8}
表示的意思：\d{3}表示匹配3个数字，例如’010’；\s可以匹配一个空格（也包括Tab等空白符），所以\s+表示至少有一个空格，例如匹配’ ‘，’ ‘等；\d{3,8}表示3-8个数字，例如’1234567’

re.match(r'\d{3}\-\d{3,8}', '021-12345')

要做更精确地匹配，可以用[]表示范围
例如：

[0-9a-zA-Z\_]可以匹配一个数字、字母或者下划线；

[0-9a-zA-Z\_]+可以匹配至少由一个数字、字母或者下划线组成的字符串，比如'a100'，'0_Z'，'Py3000'等等；

[a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下划线开头，后接任意个由一个数字、字母或者下划线组成的字符串，也就是Python合法的变量；

[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精确地限制了变量的长度是1-20个字符（前面1个字符+后面最多19个字符）。

A|B可以匹配A或B，所以(P|p)ython可以匹配'Python'或者'python'。

^表示行的开头，^\d表示必须以数字开头。

$表示行的结束，\d$表示必须以数字结束。

py也可以匹配'python'，但是加上^py$就变成了整行匹配，就只能匹配'py'了。
re.match(r'py', 'python')
Out[10]: <re.Match object; span=(0, 2), match='py'>

# 例子
>>> import re
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
&

最低0.47元/天解锁文章

FibonacciCode

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本处理常用方法

re准备正则表达式在正则表达式中，如果直接给出字符，就是精确匹配。\d 可以匹配一个数字\W 匹配非字母数字及下划线\w 可以匹配一个字母或数字\s 空格要匹配变长的字符，在正则表达式中，用*表示任意个字符（包括0个），用+表示至少一个字符，用?表示0个或1个字符，用{n}表示n个字符，用{n,m}表示n-m个字符：例：\d{3}\s+\d{3,8}表示的意思：\d{3}表示匹配3个数字，例如’010’；\s可以匹配一个空格（也包括Tab等空白符），所以\s+表示至少有一个空格，例如匹配
复制链接

扫一扫