比如 s 是一个utf8编码的字符串,如何找出 s 中的所有中文字符?
import re
re.findall(ur'[\u4e00-\u9fa5]', s.decode("UTF8"))
其中 [\u4e00-\u9fa5] 是标准汉字unicode编码范围,具体网上可以查到
比如 s 是一个utf8编码的字符串,如何找出 s 中的所有中文字符?
import re
re.findall(ur'[\u4e00-\u9fa5]', s.decode("UTF8"))
其中 [\u4e00-\u9fa5] 是标准汉字unicode编码范围,具体网上可以查到