【python2】正则表达式-中文标点

# -*- coding:utf-8 -*-


import re

#r代表原始符号,不需要进行转义,不然需要加\代表原始符号

#u代表utf8编码   u"[。,!?‘“]+" 和"[,。?]+".decode('utf8') 效果相同


regex = re.compile(ur"[。,!?‘“]")
line = "测试。,。去除标点。,是吗?"
reg = re.compile("[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]")#此句在去除标点方面实验发现未起到作用。
word =[] 
string = re.sub("[,。?]+".decode('utf8'),''.decode('utf8'),line.decode('utf8'))#将line里面的标点用空格代替
print string
print 'regex:',(regex.sub(' ',line.decode('utf8'))) #将line里面的标点用空格代替

word.append(re.split(r"[。,?]+".decode('utf8'),line.decode('utf-8')))

#** 此句的word是一个二维数组,因此并不会以汉字形式显示,可以与下面的wc比较,wc是一维的,会以汉字形式显示

wc=re.split(r"[。,?]+".decode('utf8'),line.decode('utf-8'))
print 'wc:',wc
print len(wc)
for i in range(len(wc)):
        print wc[i]


punc = r"!?。"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏."
punc = punc.decode("utf-8")
print re.sub("[%s]+" %punc, ''.decode('utf8'),line.decode('utf8'))

print re.split("[%s]+"%punc,line.decode('utf8'))

# ** split之后变成一个列表形式,汉字在列表中只能以Unicode表示,单拿出来可以以汉字形式显示,可以参见wc

结果:

string: 测试去除标点是吗
regex: 测试   去除标点  是吗 
word: [[u'\u6d4b\u8bd5\u3002\uff0c\u3002\u53bb\u9664\u6807\u70b9\u3002\uff0c\u662f\u5417\uff1f']]
wc: [u'\u6d4b\u8bd5', u'\u53bb\u9664\u6807\u70b9', u'\u662f\u5417', u'']
len(wc): 4
wci: 测试
wci: 去除标点
wci: 是吗
wci: 
resub;: 测试去除标点是吗
[u'\u6d4b\u8bd5', u'\u53bb\u9664\u6807\u70b9', u'\u662f\u5417', u'']


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值