爬虫时经常遇到'/u'开头的unicode编码的字符串,这时通过decode()来解决.
但偶尔也会遇到以‘&#’ 或者‘&#x’开头的字符串, 这是HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。
如果以‘&#‘ 开头,后接十进制数字,
如果以‘&#’开头,后接十六进制数字。
在python中的解决方法是:
import html
a = '外观'
print(html.unescape(a))
# 输出:外观
希望对你有用