Urllib库的基本使用

最新推荐文章于 2022-01-05 20:06:33 发布

爆米花9958

最新推荐文章于 2022-01-05 20:06:33 发布

阅读量612

点赞数

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/xuemengrui12/article/details/77962842

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

爬取网页
爬取网页其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。

from urllib import request

response = request.urlopen("http://www.baidu.com")
print(response.read().decode('utf-8'))

只需几行代码，这个网页的源码就被我们扒下来了
分析爬取网页的方法
我们来分析这两行代码

urlopen(url, data, timeout)

首先我们调用的是request的urlopen方法，第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。
第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。

urlopen(url, data, timeout)

response对象有一个read方法，可以返回获取到的网页内容。如果不加read直接打印会是什么？答案如下：
<http.client.HTTPResponse object at 0x02A8F750>
直接打印出了该对象的描述，所以记得一定要加read方法
构造Request
其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例，构造时需要传入Url,Data等等的内容。比如上面的两行代码，我们可以这么改写：

from urllib import request

req = request.Request("http://www.baidu.com")
response = request.urlopen(req)
print(response.read().decode('utf-8'))

运行结果是完全一样的，只不过中间多了一个request对象，推荐大家这么写，因为在构建请求时还需要加入好多内容，通过构建一个request，服务器响应请求得到应答，这样显得逻辑上清晰明确。
重试下载
下载时遇到的错误经常是临时性的，比如服务器过载时返回的 503Service U navailable错误。对于此类错误，我们可以尝试重新下载，因为这个服务器问题现在可能己解决。不过，我们不需要对所有错误都尝试重新下载。如果服务器返回的是404 Not Found 这种错误，则说明该网页目前并不存在，再次尝试同样的请求一般也不会出现不同的结果。
互联网工程任务组（ Internet Engineering Task Force) 定义了HTTP错误的完整列表，详情可参考https: //tools.ietf.org/html/rfc7231#section-6。从该文档中，我们可以了解到4xx错误发生在请求存在问题时，而5xx错误则发生在服务端存在问题时。所以，我们只需要确保download函数在发生5xx错误时重试下载即可。下面是支持重试下载功能的新版本代码:

from urllib import request
from urllib import error


def download(url, num_retries=2):
try:
req = request.Request(url)
response = request.urlopen(req)
html = response.read().decode('utf-8')
print(html)
except error.HTTPError as e:
print(e.reason)
html = None
if num_retries > 0:
if hasattr(e, 'code') and 500 <= e.code < 600:
# recursively retry Sxx HTTP errors
return download(url, num_retries - 1)
return html


if __name__ == '__main__':
download('http://httpstat.us/500')

现在，当download函数遇到Sxx错误码时，将会递归调用函数自身进行重试。此外，该函数还增加了一个参数，用于设定重试下载的次数，其默认值为两次。我们在这里限制网页下载的尝试次数，是因为服务器错误可能暂时还没有解决,想要测试该函数，可以尝试下载http://httpstat.us/500, 该网址会始终返回500错误码。
POST和GET数据传送
上面的程序演示了最基本的网页抓取，不过，现在大多数网站都是动态网页，需要你动态地传递参数给它，它做出对应的响应。所以，在访问时，我们需要传递数据给它。例如常见的登录注册。
把用户名和密码传送到一个URL，然后你得到服务器处理之后的响应，数据传送分为POST和GET两种方式，两种方式有什么区别呢？最重要的区别是GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数，不过如果你想直接查看提交了什么就不太方便了，大家可以酌情选择。
POST方式：

from urllib import request, parse
values = {"type":"4", "num": "20"}
data = parse.urlencode(values).encode('utf-8')
url = "http://www.imooc.com/api/teacher/"
req = request.Request(url，data)
response = request.urlopen(req)
print(response.read())

我们引入了urllib库，通过url获取慕课网的课程信息，我们需要定义一个字典，名字为values，参数我设置了type和num，下面利用parse的urlencode方法将字典编码，命名为data，构建request时传入两个参数，url和data，运行程序，返回的便是POST后呈现的页面内容。
注意上面字典的定义方式还有一种，下面的写法是等价的

from urllib import request, parse
values = {"type":"4", "num": "20"}
data = parse.urlencode(values).encode('utf-8')
url = "http://www.imooc.com/api/teacher/"
req = request.Request(url，data)
response = request.urlopen(req)
print(response.read())

GET方式：

from urllib import request, parse
values = {"type":"4", "num": "20"}
data = parse.urlencode(values).encode('utf-8')
url = "http://www.imooc.com/api/teacher/"
req = request.Request(url，data)
response = request.urlopen(req)
print(response.read())

和我们平常GET访问方式一模一样，这样就实现了数据的GET方式传送。

参考:

 
 http://www.cnblogs.com/Lands-ljk/p/5447127.html 

 
 http://cuiqingcai.com/947.html 

爆米花9958

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录