正则表达式简记

一、查找开头子串与结尾子串

正则表达式中以^字符表示待查找子串位于字符串开头位置,以$字符表示待查找子串位于字符串结尾位置,示例代码如下:

import re

s1 = "100_string_1"
pattern01 = r'^\d+'#查找以一位及以上数字开头的子串
pattern02 = r'\d+$'#查找以一位及以上数字结尾的子串
match01 = re.search(pattern01, s1)
sub_str01 = match01.group()#输出如下
'100'
start01 = match01.start()#输出如下
0
end01 = match01.end()#输出如下
3

match02 = re.search(pattern02, s1)
sub_str02 = match02.group()#输出如下
'1'
start02 = match02.start()#输出如下
11
end02 = match02.end()#输出如下
12

正则表达式以[^]表示匹配不包含在方括号内的字符,注意不要发生混淆。

二、分组匹配替换字符串

当查找的子串模式由多个模式组成,而想要对其中的某个模式子串进行局部替换或对模式子串进行重新排列,就需要进行分组匹配替换,示例代码如下:

import re

s1 = "100_string_1"
pattern01 = r'^(\d+)_([a-z]+)_(\d+)'
s2 = re.sub(pattern01, r'\2_\1_\3', s1)#重新排列,输出如下
'string_100_1'

s3 = re.sub(pattern01, r'\1_\2_a', s1)#对第三个模式子串进行替换,输出如下
'100_string_a'

三、查找嵌套字符串

使用正则表达式查找字符串时,会尽可能多地查找符合条件的字符串,即使用贪婪模式进行匹配,在这种模式背景下如果待查找的子串内部包含子串的部分特征模式,就无法单纯地通过正则表达式进行查找。

例如在html文件中查找一个div标签,目标div标签以< div class=‘class01’>开始,以< /div>结束,但其内部可能嵌套着其他div标签,实现查找的示例代码如下:

import re

def search_position_of_nested_DivElement(html_txt):
    dest_substr = '<div class="class01">'
    dest_substr_startIndex = html_txt.find(dest_substr)
    dest_substr_endIndex = -1
    if dest_substr_startIndex > -1:
        pos = dest_substr_startIndex + len(dest_substr)
        pattern_startDiv = re.compile(r'<div[^<>]*>')
        pattern_endDiv = re.compile(r'</div>')
        startDiv_index = 0
        endDiv_index = 0
        startDiv_match = None
        endDiv_match = None
        while True:
            startDiv_match = pattern_startDiv.search(html_txt, pos)
            endDiv_match = pattern_endDiv.search(html_txt, pos)
            if not startDiv_match:
                if not endDiv_match:
                    break
                else:
                    dest_substr_endIndex = endDiv_match.end()
                    break
            
            if not endDiv_match:
                break
            
            startDiv_index = startDiv_match.start()
            endDiv_index = endDiv_match.start()
            if startDiv_index < endDiv_index:
                pos = endDiv_match.end()
            else:
                dest_substr_endIndex = endDiv_match.end()
                break
        
        if dest_substr_endIndex > -1:
            return (True, dest_substr_startIndex, dest_substr_endIndex)
        else:
            return (True, -1, -1)
    else:
        return (False, -1, -1)

上述代码的实现原理是逐一搜索排除目标div包含的其他div标签,最终找到目标div标签的结尾标识,而后返回目标的开始和结尾位置。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
和matcher.matches在Java的Matcher类中有什么区别? matcher.find()和matcher.matches()是Java中Matcher类的两个方法,用于在一个字符串中进行正则表达式匹配操作。它们之间有一些区别: - matcher.find()方法是用来查找字符串中是否存在与正则表达式匹配的子串。它会从字符串的起始位置开始查找,一旦找到匹配的子串,就会返回true,并且可以通过matcher.group()方法获取匹配的子串。如果没有找到匹配的子串,则返回false。matcher.find()方法可以进行多次调用,每次调用都会从上一次匹配结束的位置开始查找下一个匹配的子串。 - matcher.matches()方法是用来判断整个字符串是否与正则表达式完全匹配。它会尝试将整个字符串正则表达式进行匹配,如果字符串正则表达式完全匹配,则返回true,否则返回false。与matcher.find()方法不同,matcher.matches()只会进行一次匹配,而不会找到所有的匹配子串。 举个例子,假设我们有一个字符串"abcccdefg",我们想要找到所有匹配正则表达式"c "的子串。如果我们使用matcher.find()方法,我们需要在一个while循环中连续调用matcher.find(),每次都可以找到一个匹配的子串,直到找不到匹配的子串为止。而如果我们使用matcher.matches()方法,它会尝试将整个字符串正则表达式进行匹配,只有当整个字符串正则表达式完全匹配时,才会返回true。因此,在这个例子中,matcher.matches()方法将返回false,因为整个字符串并不完全匹配正则表达式"c "。 总结来说,matcher.find()方法用于查找字符串中是否存在与正则表达式匹配的子串,并可以找到所有的匹配子串,而matcher.matches()方法用于判断整个字符串是否与正则表达式完全匹配。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [matcher.find(); matcher.matches(); 两个方法有什么区别](https://blog.csdn.net/abckingaa/article/details/131676436)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Matcher类find方法简记](https://blog.csdn.net/weixin_50893467/article/details/130367726)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值