学习笔记_03(单元七：Re(正则表达式)库入门)

最新推荐文章于 2024-08-04 15:22:29 发布

穆藩6211

最新推荐文章于 2024-08-04 15:22:29 发布

阅读量155

点赞数

分类专栏：课程笔记《Python网络爬虫与信息提取(嵩天老师)》文章标签：正则表达式 python

本文链接：https://blog.csdn.net/weixin_45033674/article/details/105755180

版权

课程笔记《Python网络爬虫与信息提取(嵩天老师)》专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、简介
正则表示式是用来简洁表达一组字符串的表达式。
作用：1）表达文本类型的特征；2）查找或替代一组字符串；3）匹配字符串的全部或部分
二、正则表达式的语法
编译：将符合正则表达式语法的字符串转换成正则表达式的特征p=re.compile(regex)
正则表达式的语法由字符和操作符构成
1）常用操作符：略
2）语法实例：
PY{:3}N——'PN'，'PYN'，'PYYN'…；
^Y[A-Za-z]+$——由26个字母组成的字符串；^-?\d+$——整数型式的字符串；
^[0-9]*[1-9][0-9]*$——正整数型式的字符串；；[1-9]\d{5}——中国境内的邮编；
[\u4e00-\u9fa5]——匹配中文字符；\d{3}-\d{8}|\d{4}-\d{7}——国内电话号码010-68913536；
IP地址字符串形式的正则表达式：\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}，精确匹配
(([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5]).){3}([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5])
三、Re库的基本使用
1、raw string(原始字符串，表示为r'text')与 string(字符串)的比较
例如：r'[1‐9]\d{5}'—'[1‐9]\\d{5}'，r'\d{3}‐\d{8}|\d{4}‐\d{7}'—'\\d{3}‐\\d{8}|\\d{4}‐\\d{7}'
2、功能函数
1）re.search(pattern,string,flag=0)：在字符串中搜索匹配正则表达式的第一个位置返回match对象

import re
match = re.search(r'[1-9]\d{5}','BIT 100081')
if match:
    print(match.group(0))    #返回 100081

2）re.match(pattern,string,flag=0)：从一个字符串的开始位置起匹配正则表达式，返回match对象

import re
match = re.match(r'[1-9]\d{5}','BIT 100081')
if match:
    print(match.group(0))    #报错

3）re.findall(pattern,string,flag=0)：搜索字符串，以列表类型返回全部能匹配的字串

import re
ls = re.findall(r'[1-9]\d{5}','BIT100081 TSU100084')
ls
#返回：['100081', '100084']

4）re.split(pattern,string,maxsplit=0,flag=0)：将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

import re
ls = re.split(r'[1-9]\d{5}','BIT100081 TSU100084')
print(ls) #返回 ['BIT', ' lt = re.splitTSU', '']
lt = re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit=1)
print(lt) #返回 ['BIT', ' TSU100084']

5）re.finditer(pattern,string,flag=0)：搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象

import re
#match = re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084') #迭代对象不能这样
for m in re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084'):
    if m:
        print(m.group(0))    #返回 100081 100084

6）re.sub(pattern,repl,count=0,flag=0)：在一个字符串中替代所有匹配正则表达式的字串返回替换后的字符串

import re
re.sub(r'[1-9]\d{5}',':zipcode','BIT100081 TSU100084') #迭代对象不能这样
# 返回'BIT:zipcode TSU:zipcode'

3、正则表达式对象
regex = re.compile(pattern,flag=0)（面对对象用法：编译后的多次操作，上面的函数式用法：一次性操作）
regex.search()…
4、Match对象
Match对象是一次匹配的结果，包含匹配的很多信息
Match对象的属性：
.string—待匹配的文本；.re—待匹配时使用的patter对象；
.pos—搜索文本的开始位置；.endpos—搜索文本的结束位置；
四、贪婪匹配和最小匹配
1）贪婪匹配：

import re
match = re.search(r'PY.*N','PYANBNCNDN')
match.group(0)
#返回 ‘PYANBNCNDN’

2）最小匹配

import re
match = re.search(r'PY.*?N','PYANBNCNDN')
match.group(0)
#返回 ‘PYAN’

最小匹配操作符：*?，+?，??，{m,n}?，

穆藩6211

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习笔记_03(单元七：Re(正则表达式)库入门)

一、简介正则表示式是用来简洁表达一组字符串的表达式。作用：1）表达文本类型的特征；2）查找或替代一组字符串；3）匹配字符串的全部或部分二、正则表达式的语法编译：将符合正则表达式语法的字符串转换成正则表达式的特征p=re.compile(regex)正则表达式的语法由字符和操作符构成1）常用操作符：略2）语法实例：PY{:3}N——'PN'，'PYN'，'PYYN'…；^Y[A-Z...
复制链接

扫一扫

专栏目录