import re # 去除标点 text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+", "", text)
# 只保留中文
content = ''.join(re.findall('[\u4e00-\u9fa5a-zA-Z0-9]+', i.text.strip(), re.S))
import re # 去除标点 text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+", "", text)
# 只保留中文
content = ''.join(re.findall('[\u4e00-\u9fa5a-zA-Z0-9]+', i.text.strip(), re.S))