本文是一个python3爬虫入门教程,需要注意的是你需要有python基础,不过也仅需要掌握简单的用法即可。
前言
网络爬虫被用于许多领域,收集不太容以其他格式获取的信息。
需要注意的是,网络爬虫当你抓取的是现实生活中真实的公共的公共数据,在合理的使用规则下是允许转载的。
相反,如果是原创数据或是隐私数据,通常受到版权显示,而不能转载。 请记住,自己应当是网络的访客,应当约束自己的抓取行为,否则会造成不良后果。
我们将从零开始,逐步完善一个高级网络爬虫。.
下载网页
下面的示例脚本使用urllib模块下载url
import urllib.request
def download(url):
return urllib.request.urlopen(url).read()
当传入url时,该函数将会下载网页并返回其HTML。不过这样不够稳健,因为我们访问网页的时候可能会遇到问题,比如页面不存在。
因此下面给出一个更稳健的版本:
import urllib.request
from urllib.error import URLError,HTTPError,ContentTooShortError
def download(url):
print('Downloading:')
try:
html = urllib.request.urlopen(url).read()
except (URLError,HTTPError,ContentTooShortError) as e:
print('download:',e.reason)
html = None
return