Python基础（6）爬虫requests库

最新推荐文章于 2024-05-12 19:14:22 发布

xiaoyaoyige

最新推荐文章于 2024-05-12 19:14:22 发布

阅读量249

点赞数

分类专栏： python 文章标签： python requests

本文链接：https://blog.csdn.net/xiaoyaoyige/article/details/91353259

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

Requests库的安装
- 测试
Requests库的使用方法
Requests库异常
爬取网页的通用代码框架

Requests库的安装

cmd
-> pip install requests
-> python -m pip install -upgrade pip

测试

>>> import requests
>>> r = requests.get("http://www.baidu.com")
>>> r.status_code
200
>>> r.encodeing = "utf-8"
>>> r.text

输出：
在这里插入图片描述
这里的编码没有变成utf-8，还是默认的r.encoding ，r.apparent_encoding才是utf-8

Requests库的使用方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTML的GET
requests.head()	获取HTML网页头信息的方法，对应于HTML的HEAD
requests.post()	向HTML网页提交请求POST的方法，对应于HTML的POST
requests.put()	向HTML网页提交请求PUT的方法，对应于HTML的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTML的PATCH
requests.delete	向HTML网页提交删除请求，对应于HTML的DELETE

requests.request()是最基础的方法，以下其他所有方法都是通过调用request()方法来实现的。

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获取该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

PATCH和PUT的区别

假设url有一组数据user，包含userID，username等20个字段，需求是：修改username，其他不变。
若用PATCH，仅向url提交username的局部更新请求。
若用PUT，必须将所有20个字段一并提交到url，未提交字段会被删除。

requests.get()

获得一个网页最简单的一行代码就是r = requests.get(“url”)，构造一个向服务器请求资源的Request对象，返回一个包含服务器资源的Response对象。
Response对象包含爬虫返回的内容。
完整用法：requests.get(url,params=None,**kwargs)
url：拟获取的URL链接
params：URL中的额外参数，字典或字节流格式，可选
**kwargs：12个控制访问的参数

def get(url, params=None, **kwargs):
    kwargs.setdefault('allow_redirects', True)
    return request('get', url, params=params, **kwargs)

Response对象

>>> import requests
>>> r = requests.get("http://www.baidu.com") #返回Response对象 r
>>> print(r.status_code) #检请求状态码
200 #200则访问成功，否则失败
>>> type(r)
<class 'requests.models.Response'>
>>> r.headers #页面头部信息
{'Server': 'bfe/1.0.8.18', 'Date': 'Sun, 09 Jun 2019 06:29:13 GMT', 'Content-Type': 'text/html', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:24 GMT', 'Transfer-Encoding': 'chunked', 'Connection': 'Keep-Alive', 'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Pragma': 'no-cache', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Content-Encoding': 'gzip'}

Response对象的属性操作

属性	说明
r.status_code	请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding	从HTTP header中猜测的相应内容编码方式
r.apparent_encoding	从内容分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

例子

>>> import requests
>>> r = requests.get("http://www.baidu.com")
>>> r.status_code
200
>>> r.encodeing = "utf-8"
>>> r.text

Requests库异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝链接等
requests.HTTPError	HTTP错误异常（非200）
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnetTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	如果是200，返回true，否则产生异常requests.HTTPError

爬取网页的通用代码框架

try-except 语句

异常可以通过 try 语句来检测. 任何在 try 语句块里的代码都会被监测, 检查有无异常发生。
try：

检测异常的语句

except：

异常处理办法

代码框架

import requests
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

示例代码

import requests

def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "__mian__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

pycharm上运行requests库遇到了配置问题，参考解决连接：https://blog.csdn.net/u012106306/article/details/80760744
解决之后不再报错说找不到requests库了，但是没有输出结果。最后发现我把main拼成mian了，尴尬…
改正后if __ name__ == “__ main__”:，当运行模块被执行的时候，if成立，如果该文件被import到其他模块中，则__ name __等于模块(文件)名称（不包含后缀 .py）

xiaoyaoyige

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python基础（6）爬虫requests库

文章目录Requests库的安装测试Requests库的使用方法requests.get()Response对象Response对象的属性操作例子Requests库异常爬取网页的通用代码框架try-except 语句代码框架Requests库的安装cmd-> pip install requests-> python -m pip install -upgrade pip测试...
复制链接

扫一扫