Requests库的7个方法（学习Requests库随笔）

最新推荐文章于 2024-05-03 18:46:29 发布

老司机开代码

最新推荐文章于 2024-05-03 18:46:29 发布

阅读量863

点赞数 4

分类专栏： # 爬虫文章标签： Python Requests库网页爬取

本文链接：https://blog.csdn.net/weixin_43901998/article/details/86745332

版权

爬虫专栏收录该内容

15 篇文章 2 订阅

订阅专栏

Requests库的7个主要方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

HTTP协议对资源的操作

HTTP协议：通过URL对资源进行定位，通过6种方法对资源进行管理

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的相应信息的报告，即获得该资源的头部资源
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，会覆盖原位置的资源
PATCH	请求局部更新URL位置的资源，即改变该位置资源的部分内容
DELETE	删除URL位置的资源

用户可以通过GET，HEAD向服务器获取资源，还可以通过PUT，POST，PATCH向服务器提交资源

Requests方法的详细论述：

requests.request(method, url, **kwargs)

method	请求方式，对应put，get等7种
url	页面链接
**kwargs	控制页面访问的参数，一共13个

**kwargs参数

参数	作用
params	字典或字节序列，作为参数增加到url中
data	字典，字节序列或文件对象，作为Request的内容（向服务器提交资源使用）
json	JSON格式的数据，作为request的内容（作为内容部分向服务器提交）
headers	字典，HTTP定制头
cookies	从http协议中解析cookie，可以是字典或cookieJar形式
auth	元组，支持HTTP认证功能
files	字典类型，向服务器传输文件时使用
timeout	设定超时时间，以s（秒）为单位
proxies	字典类型，设定访问代理服务器，可以增加登录认证（隐藏IP，防止对爬虫的逆追踪）
allow_redirects	True/False,默认为True,重定向开关，表示是否允许对url进行重定向
stream	True/False,默认为True,获取内容立即下载开关
verify	True/False,默认为True,认证SSL证书开关
cert	保存本地SSL证书路径

requests.get(url, params=None, **kwargs)

参数	说明
url	拟取页面的链接
params	字典或字节流格式，url中增加的额外参数
**kwargs	除去params的12个控制访问参数（与上表中的基本一致）

以下几种方法与requests.get(url, params=None, **kwargs)基本相似就不再一一描述

requests.head(url, **kwargs)
requests.post(url, data = None, json = None, **kwargs)
requests.put(url, data = None, **kwargs)
requests.patch(url, data = None, **kwargs)
requests.delets(url, **kwargs)

Requests库异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

Response对象属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

r.encoding：如果header中不存在charset，则认为编码为ISO‐8859‐1
r.text根据r.encoding显示网页内容
r.apparent_encoding：根据网页内容分析出的编码方式，可以看作是r.encoding的备选

r.status_code和r.raise_for_status()
如果发送了一个错误请求(一个 4XX 客户端错误，或者 5XX 服务器错误响应)，我们可以通过 Response.raise_for_status() 来抛出异常：

r.status_code是输出404

>>> bad_r = requests.get('http://httpbin.org/status/404')
>>> bad_r.status_code
404

r.raise_for_status()抛出异常

>>> bad_r.raise_for_status()
Traceback (most recent call last):
  File "requests/models.py", line 832, in raise_for_status
    raise http_error
requests.exceptions.HTTPError: 404 Client Error

但是，如果 r 的 status_code 是 200 ，当我们调用 raise_for_status() 时，得到的是：

>>> r.raise_for_status()
None

下面附上爬取网页通用代码框架：

以爬取百度网页为例：

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()  # 如果状态不是200, 引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__== "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

老司机开代码

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Requests库的7个方法（学习Requests库随笔）

Requests库的7个主要方法方法说明requests.request()构造一个请求，支撑以下各方法的基础方法requests.get()获取HTML网页的主要方法，对应于HTTP的GETrequests.post()向HTML网页提交POST请求的方法，对应于HTTP的POSTrequests.head()获取HTML网页头信息的方法，对应于H...
复制链接

扫一扫