在进行打开文件过程中,提示UnicodeDecodeError错误,这可能是Python尝试用gbk编码打开一个非gbk编码的文件(Windows下Python默认使用gbk读取文件)导致。
解决:
在打开时指定编码。
报错语句:
soup = BeautifulSoup(open(“c:\\user\desktop\sina.html”))
修改后:
soup = BeautifulSoup(open(“c:\\user\desktop\sina.html”,encoding="utf-8"))
注:上述中"\U"是转义字符,如果直接是c:\user...则会提示SyntaxError,这时我们就需要多加一个“\”