爬取的页面里包含很多 \ 双反斜杠, 想replace 出现 invalid escape sequence ‘/‘ 警告
出现警告的原因是 ‘unicode_escape’ 编码不支持 ‘/’ 这样的转义序列。,如果你想要处理 / 这样的转义序列,可以使用 ‘raw_unicode_escape’ 编码来代替 ‘unicode_escape’。‘raw_unicode_escape’ 编码能够处理 ‘/’ 这样的转义序列。下面是修改后的示例代码:
html = etree.HTML(res.text.encode('utf-8').decode('raw_unicode_escape').replace('\\', ''))