几天第一次学习网络爬虫 写的第一个代码是这样的
from urllib.request import urlopen
url='https://www.baidu.com'
resp=urlopen(url)
with open('mybaidu.html',mode='wb') as f:
f.write(resp.read())
print('完成!')
结果生成的“mybaidu.html”只有寥寥几行
<html>
<head>
<script>
location.replace(location.href.replace("https://","http://"));
</script>
</head>
<body>
<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>
</body>
</html>
打开的网页是空白页
后来发现原因是url的开头是https而非http将代码改成这样就正常了
主要还是http传输是明文的,而https是用ssl进行加密的。https具有安全性
from urllib.request import urlopen
url='http://www.baidu.com'
resp=urlopen(url)
with open('mybaidu.html',mode='wb') as f:
f.write(resp.read())
print('完成!')