使用bs4解析网页时, 使用print函数, 在遇到中文字符时会遇到如下的问题.
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 319: illegal multibyte sequence
采用规定print打印的默认编码,虽然不会报错,但会出现乱码.
import io
import sys
import urllib.request
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码
于是将bs4解析器更换为容错率更好的 xml
于是出现了无乱码的中文字符
最后附上各种解析器