关于python爬虫html文件打开是空白页的问题

最新推荐文章于 2024-04-30 14:50:43 发布

烤鸡kaoji

最新推荐文章于 2024-04-30 14:50:43 发布

阅读量2.6k

点赞数 2

文章标签： html 爬虫 python

本文链接：https://blog.csdn.net/weixin_56011773/article/details/125310258

版权

几天第一次学习网络爬虫写的第一个代码是这样的

from urllib.request import urlopen
url='https://www.baidu.com'
resp=urlopen(url)
with open('mybaidu.html',mode='wb') as f:
       f.write(resp.read())
print('完成！')

结果生成的“mybaidu.html”只有寥寥几行

<html>
<head>
	<script>
		location.replace(location.href.replace("https://","http://"));
	</script>
</head>
<body>
	<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>

打开的网页是空白页

后来发现原因是url的开头是https而非http将代码改成这样就正常了

主要还是http传输是明文的，而https是用ssl进行加密的。https具有安全性

from urllib.request import urlopen
url='http://www.baidu.com'
resp=urlopen(url)
with open('mybaidu.html',mode='wb') as f:
       f.write(resp.read())
print('完成！')