【Requests库】{2} ——爬取网页的通用代码框架

最新推荐文章于 2021-05-15 17:51:38 发布

Giyn

最新推荐文章于 2021-05-15 17:51:38 发布

阅读量243

点赞数 3

分类专栏：【Python爬虫知识】文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_45961774/article/details/104625388

版权

【Python爬虫知识】专栏收录该内容

19 篇文章 5 订阅

订阅专栏

网络连接有风险，异常处理很重要

理解 Requests库的异常：

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
r.raise_for_status()	如果不是200，产生异常requests.HTTPError
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

后面两种有区别

爬取网页的通用代码框架：

import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status() #如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

这样一个通用代码框架可以有效地处理我们在访问或爬取网页过程中，可能出现的一些错误，或者是网络不稳定造成的一些现象。

在这里插入图片描述

通用代码框架使用户访问或爬取网页变得更有效、更稳定、更可靠。

参考资料：Python网络爬虫与信息提取（北京理工大学慕课）

Giyn

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
【Requests库】{2} ——爬取网页的通用代码框架

网络连接有风险，异常处理很重要理解 Requests库的异常：异常说明requests.ConnectionError网络连接错误异常，如DNS查询失败、拒绝连接等requests.HTTPErrorHTTP错误异常requests.URLRequiredURL缺失异常requests.TooManyRedirects超过最大重定向次数，产生重定向...
复制链接

扫一扫