本节编写一个最简单的爬虫程序,作为学习 Python 爬虫前的开胃小菜。
下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意,urllib 库属于 Python 的标准库模块,无须单独安装,它是 Python 爬虫的常用模块。
获取网页html信息
1) 获取响应对象
向百度发起请求,获取百度首页的 HTML 信息,代码如下:
1. #导包,发起请求使用urllib库的request请求模块
2. import urllib.request
3. # urlopen()向URL发请求,返回响应对象,注意url必须完整
4. response=urllib.request.urlopen('http://www.baidu.com/')
5. print(response)
上述代码会返回百度首页的响应对象, 其中 urlopen() 表示打开一个网页地址。注意:请求的 url 必须带有 http 或者 https 传输协议。
输出结果,如下所示:
上述代码也有另外一种导包方式,也就是使用 from,代码如下所示:
1. #发起请求使用urllib库的request请求模块
2. from urllib import request
3. response=request.urlopen('http://www.baidu.com/')
4. print(response)