python网络爬虫教程(四)：强大便捷的请求库requests详解与编程实战

最新推荐文章于 2023-02-09 22:10:32 发布

Jude'

最新推荐文章于 2023-02-09 22:10:32 发布

阅读量1.3w

点赞数 2

分类专栏： python网络爬虫学习记录教程文章标签： python 网络

本文链接：https://blog.csdn.net/weixin_45698431/article/details/106356786

版权

上一章中，我们了解了urllib的基本用法，详情可浏览如下链接python网络爬虫教程(三)：详解urllib库，但其中确实有不方便的地方，为此，我们可以使用更方便更简洁的HTTP请求库requests来帮我们完成爬虫任务。

如果你没有安装requests，无论是Windows、Linux还是Mac，都可以在命令行界面中运行如下命令，即可完成requests库的安装：

pip install requests

如果你没有安装pip，可参考以下文章：写给初学者的Python与pip安装教程。

基本用法

1. GET请求

1. 基本实例
HTTP中最常见的就是GET请求，在requests中可以用如下方法实现：

import requests

response = requests.get('http://httpbin.org/get')
print(type(response))
print(response.text)

结果如下：

<class 'requests.models.Response'>
{
  "args": {},
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "httpbin.org",
    "User-Agent": "python-requests/2.23.0",
    "X-Amzn-Trace-Id": "Root=1-5eccc552-e9bfd8204c6d591075a2b890"
  },
  "origin": "171.107.139.104",
  "url": "http://httpbin.org/get"
}

可以发现，get()方法返回值是requests.model.Response类型对象，并且这样的请求方法与urllib中的urlopen()方法如出一辙。

如果要添加参数，除了在URL中构造外，还可以使用get()方法的params参数：

import requests

data = {
   
    'name': 'germey',
    'age': 22
}

response = requests.get('http://httpbin.org/get', params=data)
print(response.text)

运行结果如下：

{
  "args": {
    "age": "22",
    "name": "germey"
  },
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "httpbin.org",
    "User-Agent": "python-requests/2.23.0",
    "X-Amzn-Trace-Id": "Root=1-5eccc6f8-ee3d14ec71ec38bec92961aa"
  },
  "origin": "171.107.139.104",
  "url": "http://httpbin.org/get?name=germey&age=22"
}

我们构造一个字典类型的参数data，利用params参数将data构造为URL的参数，这种方法更加简便，且可读性更强。
另外，网页的返回结果是str类型，但是它很特殊，是JSON格式的，如果我们要解析返回结果，得到一个字典的话，可以用jsos()方法：

import requests

response = requests.get('http://httpbin.org/get')
print(type(response.text))
print(response.json())
print(type(response.json()))

运行结果如下：

<class 'str'>
{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.23.0', 'X-Amzn-Trace-Id': 'Root=1-5eccc86b-7372a90f1143321aa6393206'}, 'origin': '171.107.139.104', 'url': 'http://httpbin.org/get'}
<class 'dict'>

可以发现，调用json()后，返回结果转化为了字典。但是如果返回结果不是JSON格式，便会出现解析错误。

2. 抓取二进制数据
如果我们要获取网页内容，可以在返回结果的Request中用text属性，实际上它的内容是一个HTML文档，如果想抓取图片、音频、视频等内容，可以使用Response的content属性，它的内容是这些文件的二进制码。

下面我们来试着爬取本页面菜单栏上的CSDN图标，如下所示

在这里插入图片描述

import requests

response = requests.get('https://csdnimg.cn/cdn/content-toolbar/csdn-logo.png?v=20200416.1')
print(type(response.text))
print(type(response.content))

运行结果如下：

<class 'str'>
<class 'bytes'>

其中content属性的内容是bytes类型，试着将它保存到文件中：

import requests

response = requests.get('https://csdnimg.cn/cdn/content-toolbar/csdn-logo.png?v=20200416.1')
with open('text.ico', 'wb+') as f:
    f

最低0.47元/天解锁文章

Jude'

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫教程(四)：强大便捷的请求库requests详解与编程实战

上一章中，我们了解了urllib的基本用法，详情可浏览如下链接python网络爬虫教程(三)：详解urllib库，但其中确实有不方便的地方，为此，我们可以使用更方便更简洁的HTTP请求库requests来帮我们完成爬虫任务。如果你没有安装requests，无论是Windows、Linux还是Mac，都可以在命令行界面中运行如下命令，即可完成requests库的安装：pip install requests如果你没有安装pip，可参考以下文章：写给初学者的Python与pip安装教程。基本用法1.
复制链接

扫一扫