python3 爬虫相关学习10：RE 库/ regex /regular experssion正则表达式学习

#E:\work\FangCloudV2\personal_space\2learn\python3\py0005.txt
# re相关

import re
print(re.match(r"aa\d+","aa2323"))   #会尽可能多的去匹配\d
print(re.match(r"aa\d+?","aa2323"))  #尽可能少的去匹配\d

例子2

#E:\work\FangCloudV2\personal_space\2learn\python3\py0005.txt
# re相关

import re

get1 = re.match(r'1[35678]\d{9}','13111111111')
print (get1)

get1 = re.match(r'1[35678]\d{9}','121111111111')
print (get1)

get1 = re.match(r'1[35678]\d{2}','13111111111')
print (get1)

get1 = re.match(r'1[35678]','13111111111')
print (get1)

get1 = re.match(r'1[35678]?','13111111111')
print (get1)

get1 = re.match(r'1[35678]\d{1,9}','13111111111')
print (get1)

get1 = re.match(r'1[35678]\d{1,9}?','13111111111')
print (get1)

3 正则表达式的方法

3.1 匹配和查找相关

re.match()
re.search()
re.findall()
re.finditer()
re.sub()
re.compile()
re.split()

3.2 相同点和差别

3.2.1 返回正则对象

re.compile() # 返回一个正则对象
其他的方法都返回， MatchObject 对象
要么返回列表，可迭代对象

3.2.2 不同的查找方法

re.match() #从开头查找
re.search()
re.findall() # 返回一个列表
re.finditer() # 返回可迭代对象

3.2.3 不同的查找方法

re.sub() #替换

3.2.4 不同的分割方法

re.split() #分割，返回列表对象

3.3 re.match()

3.3.1 re 里大多数人接触第一个方法

语法
re.match(pattern, string , flags=0)
必须从字符串开头开始匹配
返回一个对象 ! (包括none)
返回： MatchObject 对象，如果找不到则返回none

none
<re.Match object; span=(0, 1), match='1'>

3.3.2 MatchObject 对象的属性/方法

因为 re.match()返回的是一个MatchObject 对象，所以他有些特殊的属性

re.match()
# 使用正则对目标字符串，匹配后的内容
返回的内容，<re.Match object; span=(0, 1), match='1'>
类型：Match object;
span=(0,1) ，而其实就是 span=(start,end)
match="1" , 其实就是返回匹配后的字符串 "1" 也就是 re.match.group()

re.match().span() # 返回的是使用正则对目标字符串匹配后的内容的字符串长度
re.match().start() # 返回的是使用正则对目标字符串匹配后的内容的字符串的开始位
re.match().end() # 返回的是使用正则对目标字符串匹配后的内容的字符串的结束位
re.match().string() # 返回的是要使用正则去匹配的目标字符串
re.match().group() # 返回的是使用正则对目标字符串匹配后的内容--这个字符串str

#E:\work\FangCloudV2\personal_space\2learn\python3\py0005.txt
# re相关

import re

str1=re.match("^\d","123abc456ABC")
print (str1)
print (type(str1))
print (str1.start())
print (str1.end())
print (str1.span())
print (str1.string)
print (str1.group())
print (type(str1.group()))

3.3.3 re.match() 和 ^ 其实有点意义重复

用 re.match() 还需要加 ^ ？不需要，都表示从头开始查找了
实测也如此

#E:\work\FangCloudV2\personal_space\2learn\python3\py0005.txt
# re相关

import re

print ("#第1次测试")
str1=re.match("^\d","123abc456ABC")
print (str1.group())
str1=re.match("^\d{1}","123abc456ABC")
print (str1.group())
str1=re.match("^\d{1,}?","123abc456ABC")
print (str1.group())
str1=re.match("^\d?","123abc456ABC")
print (str1.group())

print ("#第2次测试")
str2=re.match("\d","123abc456ABC")
print (str2.group())
str2=re.match("\d{1}","123abc456ABC")
print (str2.group())
str2=re.match("\d{1,}?","123abc456ABC")
print (str2.group())
str2=re.match("\d?","123abc456ABC")
print (str2.group())

3.3.4 使用 re.match() 来测试，数量的不同写法(可以等价)

比如我只用match()匹配字符串开头的一个数字

以下写法是等价的

\d #会查找至少1个数字，0个会报错
\d{1} #会查找至少1个数字，0个会报错
\d{1,}? #会查找至少1个数字，0个会报错
但是这里有点注意，?表示量词时是0|1个，但是放在其他量词后面表示，非贪婪匹配的意思，尽可能少的匹配

下面2个和上面的略有差别

\d? #如果是0个也可以，返回none ，因为? 本身代表0 或者1
\d{0,} # 如果是0个也可以，返回none

#E:\work\FangCloudV2\personal_space\2learn\python3\py0005.txt
# re相关

import re

print ("#第1次测试")
str1=re.match("^\d","123abc456ABC")
print (str1.group())
str1=re.match("^\d{1}","123abc456ABC")
print (str1.group())
str1=re.match("^\d{1,}?","123abc456ABC")
print (str1.group())
str1=re.match("^\d?","123abc456ABC")
print (str1.group())

print ("#第2次测试")
str2=re.match("\d","123abc456ABC")
print (str2.group())
str2=re.match("\d{1}","123abc456ABC")
print (str2.group())
str2=re.match("\d{1,}?","123abc456ABC")
print (str2.group())
str2=re.match("\d?","123abc456ABC")
print (str2.group())

print ("#第3次测试")
"""
#这几个找不到会报错
str3=re.match("\d","abc456ABC")
print (str3.group())
str3=re.match("\d{1}","abc456ABC")
print (str3.group())
str3=re.match("\d{1,}?","abc456ABC")
print (str3.group())
"""
str3=re.match("\d?","abc456ABC")
print (str3.group())
str3=re.match("\d{0,}","abc456ABC")
print (str3.group())

3.3.5 所以一般返回 re.match() 即可，而不直接返回 re.match().group() ，原因就很明显了

re.match() # 返回MatchObject 对象，有可能是<> 有可能是none
re.match().group() #当MatchObject 对象是none时，这里会报错
re.match().group() # 如果想这么写，一定考虑好错误处理，当MatchObject为none时做好处理

3.3.6 测试正则 re.match()

可以用
try:
except Exception as e:
暂时先不处理错误而抛出异常！
Exception 要大写首字母

#E:\work\FangCloudV2\personal_space\2learn\python3\py0004.txt
# re相关

import re
i=1

def print_str(strA):
    global i
    print ("第%s次试验" %i)
    i=i+1
    try:
        print (strA)
        print ("")
    except Exception as e:
        print ("此次有报错",e)
        print ("")

print ("#测试身份证号")

#低级错误，半个括号)     \d而不是d

str1=re.match("^[0-9]{18}","110102198001017032")
print_str(str1)

str1=re.match("^\d{18}","110102198001017032")
print_str(str1)

str1=re.match("\d{17}(\d|[x])","110102198001017032")
print_str(str1)

str1=re.match("\d{17}(\d?|[x]?)","110102198001017032")
print_str(str1)

str1=re.match("\d{17}\d?","110102198001017032")
print_str(str1)


str1=re.match("^[1-9]\d{16}(\d|[x])","110102198001017032")
print_str(str1)

str1=re.match("^[1-9]\d{16}([0-9]|[x])","110102198001017032")
print_str(str1)

3.4 re.search()

语法
search(pattern, string, flags=0)
可以从字符串的任何地方开始查找匹配
除了不从目标字符串开头开始查找，其他和 re.match() 基本一致
返回一个对象 ! (包括none)

3.5 Flags标志

在re库中，有一种Flags标志，它可以调整匹配的行为。常用的Flags标志有：

re.I：忽略大小写匹配
re.L：做本地化识别（locale-aware）匹配
re.M：多行匹配，影响 ^ 和 $ 标志
re.S：使 . 匹配包括换行符在内的所有字符
re.U：根据Unicode字符集解析字符。这个标志会影响 \w, \W, \b, \B
re.X：为了增加可读性，忽略空白符号的意义并允许你把横跨多行的正则表达式写成"非括号化"的形式

3.6 没有 re.find() ，只有 re.findall()

居然没有 re.find()
使用此方法会报错！

3.7 re.findall()

语法
findall(pattern, string, flags=0)
返回一个列表\
比如下面的
re.findall("",str)
re.findall("",str,re.I)

3.8 re.sub()

语法
sub(pattern, repl, string, count=0, flags=0)
在string内部，按正则 pattern 去替换 repl ，数量为 count 次

如果不指定数量，默认只替换1次
如果指定数量，则替换对应次数
但是默认不能识别大小写，需要有参数 re.I 才可以

3.9 re.finditer

语法
re.finditer(pattern, string[, flags=0])
返回，一个可迭代对象
<callable_iterator object at 0x00000282083B4D90>
虽然直接看不懂
但是可以用循环，取出其中内容

3.10 re.compile()

编译正则表达式
compile(pattern, flags=0)
re.compile() 和前面的 re的各种方法不同，他不是一个方法，而是生成一个正则规则，然后其他正则方法，re.search() re.match() 等使用这个正则去匹配、
但是，暂时和直接用正则规则写一个"" 字符串的正则规则，比较 compile() 生成的有什么区别，暂时不知道，留着待查

#E:\work\FangCloudV2\personal_space\2learn\python3\py0005.txt
# re相关

import re


str1="abcabcabcABC"
str_pattern=re.compile("a.*?c")
re_content=str_pattern.match(str1)
print(re_content.group())

str1="abcabcabcABC"
get1=re.search("a.*?c",str1)
print(get1.group())