从B站学习爬虫教学。
主要是爬一下百度主页的信息,然后将resp保存在html文件中,再用浏览器打开html文件。
出现的问题有:
使用open 函数时需要确定encoding的方式,不然写入html文件中会出现乱码现象。其实很好理解,就是说编码的时候不确定编码方式,那解码的时候就只能瞎蒙,也许OK,大概率乱码。其次,f.write使用完之后,记得用f.close。养成良好习惯。具体为啥现在还不知道!
总代码:
from urllib.request import urlopen url="某个url" resp=urlopen(url) with open("mybaidu.html",mode="w",encoding="utf-8") as f: f.write(resp.read().decode("utf-8")) f.close() print("over!")