python匹配文本中全角符号的两种方法

最新推荐文章于 2024-07-17 15:15:16 发布

byufeng

最新推荐文章于 2024-07-17 15:15:16 发布

阅读量1.2w

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/xys228280987/article/details/51026496

版权

本文探讨了在处理包含全角符号的文本时，如何正确使用Python进行正则匹配。由于全角字符在utf8编码下可能与中文字节编码冲突，直接匹配可能导致错误。解决方案包括将字符串decode为unicode，或者将正则模式也转换为unicode表示。第一种方法涉及全角转半角操作，适合复杂情况；第二种方法简洁直接，适用于匹配符号种类较少的情况。

摘要由CSDN通过智能技术生成

在对文本进行处理的时候经常会遇见要对括号和标点进行匹配

常见的英文(半角)符号如( ) 直接用正则匹配即可

但是遇见全角字符(中文括号、标点)，直接用正则匹配会存在问题：

因为编码通常为为utf8，若直接匹配，中文括号的3字节编码会和一些中文的字节编码重复，产生意想不到的结果

若用decode转为unicode编码，则可避免产生错误结果，但也无法直接用正则匹配到

经过试验，发现一个看上去最佳的解决方法:

将字符串decode之后调用一个将全角符号转为半角符号的方法，然后处理返回的字符串

def strQ2B(ustring):
    """全角转半角"""
    rstring = ""
    for uchar in ustring:
        inside_code=ord(uchar)
        if inside_code == 12288:                              #全角空格直接转换
            inside_code = 32
        elif (inside_code >= 65281 and inside_code <= 65374): #全角字符（除空格）根据关系转化
            inside_code -= 65248
        rstring += unichr(inside_code)
    return rstring

def p(s):
    s1 = strQ2B(s.decode())
    p = re.compile('[()]',re.S)
    s1 = p.s