正则表达式概述

正则表达式概述

正则表达式,⼜称正规表示式、正规表示法、正规表达式、规则表达式、常 规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或 RE),是计算机科学的⼀个概念。正则表达式使⽤单个字符串来描述、匹配 ⼀系列匹配某个句法规则的字符串。在很多⽂本编辑器⾥,正则表达式通常 被⽤来检索、替换那些匹配某个模式的⽂本。
Regular Expression的“Regular”⼀般被译为“正则”、“正规”、“常规”。此处 的“Regular”即是“规则”、“规律”的意思,Regular Expression即“描述某种规则 的表达式”之意。

re模块操作

在Python中需要通过正则表达式对字符串进⾏匹配的时候,可以使⽤⼀个模 块,名字为re

  1. re模块的使⽤过程

    		#coding=utf-8
    		#	导⼊re模块				
    		import	re
    		#	使⽤match⽅法进⾏匹配操作				
    		result	=	re.match(正则表达式,要匹配的字符串)
    		#	如果上⼀步匹配到数据的话,可以使⽤group⽅法来提取数据				
    		result.group()
    

re.match是⽤来进⾏正则匹配检查的⽅法,若字符串匹配正则 表达式,则match⽅法返回匹配对象(Match Object),否则 返回None(注意不是空字符串"")。
匹配对象Macth Object具有group⽅法,⽤来返回字符串的匹 配部分。
2. re模块示例(匹配以itcast开头的语句)
#coding=utf-8
import re
result = re.match(“itcast”,“itcast.cn”)
re模块操作
result.group()
运⾏结果为:
itcast
3. 说明
re.match() 能够匹配出以xxx开头的字符串

表示字符

字符                   功能
   .           匹配任意1个字符(除了\n)
   [ ]              匹配[ ]中列举的字符
   \d           匹配数字,即0-9
   \D         匹配⾮数字,即不是数字
   \s        匹配空⽩,即 空格,tab键
   \S              匹配⾮空⽩
   \w     匹配单词字符,即a-z、A-Z、0-9、_
   \W            匹配⾮单词字符

表示数量

匹配多个字符的相关格式
字符                                 功能
*              匹配前⼀个字符出现0次或者⽆限次,即可有可⽆
+             匹配前⼀个字符出现1次或者⽆限次,即⾄少有1次
?             匹配前⼀个字符出现1次或者0次,即要么有1次,要么没有
{m}                    匹配前⼀个字符出现m次
{m,}                匹配前⼀个字符⾄少出现m次
{m,n}             匹配前⼀个字符出现从m到n次

表示边界

字符                 功能
  ^             匹配字符串开头
  $             匹配字符串结尾
  \b            匹配⼀个单词的边界
  \B            匹配⾮单词边界

匹配分组

字符                                     功能
   |                             匹配左右任意⼀个表达式
(ab)                     将括号中字符作为⼀个分组
\num                     引⽤分组num匹配到的字符串
(?P)                                 分组起别名
(?P=name)             引⽤别名为name分组匹配到的字符串

python贪婪和⾮贪婪

Python⾥数量词默认是贪婪的(在少数语⾔⾥也可能是默认⾮贪婪),总是 尝试匹配尽可能多的字符;
⾮贪婪则相反,总是尝试匹配尽可能少的字符。
在"*","?","+","{m,n}"后⾯加上?,使贪婪变成⾮贪婪。

正则表达式模式中使⽤到通配字,那它在从左到右的顺序求值时,会尽量“抓 取”满⾜匹配最⻓字符串,在我们上⾯的例⼦⾥⾯,“.+”会从字符串的启始处 抓取满⾜模式的最⻓字符,其中包括我们想得到的第⼀个整型字段的中的⼤ 部分,“\d+”只需⼀位字符就可以匹配,所以它匹配了数字“4”,⽽“.+”则匹配 了从字符串起始到这个第⼀位数字4之前的所有字符。
解决⽅式:⾮贪婪操作符“?”,这个操作符可以⽤在"*","+","?"的后⾯,要求 正则匹配的越少越好。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值