ECommerceCrawlers项目分析(八)

2021SC@SDUSC

本篇博客将介绍requests的基本使用方法

一.发送请求

一开始要导入 requests 模块:

import requests

然后,尝试获取某个网页。本例子中,我们来获取 Github 的公共时间线:

r = requests.get('https://api.github.com/events')

 其中r 是一个 Response 对象。我们可以从这个对象中获取所有我们想要的信息。

并且对于其他 HTTP 请求类型:PUT,DELETE,HEAD 以及 OPTIONS 方法都是类似:

r = requests.put('http://httpbin.org/put', data = {'key':'value'})
r = requests.delete('http://httpbin.org/delete')
r = requests.head('http://httpbin.org/get')
r = requests.options('http://httpbin.org/get')

二.传递 URL 参数

URL即是网址,比如:

http://httpbin.org/get?key2=value2&key1=value1

就上面这个例子,如果想要手工构建 URL,则需要使用 params 关键字参数,以一个字符串字典来提供这些参数。

例如:

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)
print(r.url)

注意字典里值为 None 的键都不会被添加到 URL 的查询字符串里。

三.响应内容

Requests 会自动解码来自服务器的内容。大多数 unicode 字符集都能被无缝地解码。

import requests
r = requests.get('https://api.github.com/events')

# r.text 之时,Requests 会使用其推测的文本编码。
r.text
#u'[{"repository":{"open_issues":0,"url":"https://github.com/...

r.encoding
#'utf-8'
r.encoding = 'ISO-8859-1'

四.二进制响应内容

能以字节的方式访问请求响应体,对于非文本请求:

r.content
#b'[{"repository":{"open_issues":0,"url":"https://github.com/...

五.JSON 响应内容

Requests 中也有一个内置的 JSON 解码器,助你处理 JSON 数据:

import requests

r = requests.get('https://api.github.com/events')
r.json()
#[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...

如果 JSON 解码失败, r.json() 就会抛出一个异常。

需要注意的是,成功调用 r.json() 并不意味着响应的成功。有的服务器会在失败的响应中包含一个 JSON 对象(比如 HTTP 500 的错误细节)。这种 JSON 会被解码返回。要检查请求是否成功,请使用 r.raise_for_status() 或者检查 r.status_code 是否和你的期望相同。

六.原始响应内容

在罕见的情况下,你可能想获取来自服务器的原始套接字响应,那么你可以访问 r.raw。 如果你确实想这么干,那请你确保在初始请求中设置了 stream=True。具体你可以这么做:

r = requests.get('https://api.github.com/events', stream=True)
r.raw
#<requests.packages.urllib3.response.HTTPResponse object at 0x101194810>
r.raw.read(10)
#'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03'

八.定制请求头

如果你想为请求添加 HTTP 头部,只要简单地传递一个 dict 给 headers 参数就可以了。

url = 'https://api.github.com/some/endpoint'
headers = {'user-agent': 'my-app/0.0.1'}

r = requests.get(url, headers=headers)

注意: 所有的 header 值必须是 string、bytestring 或者 unicode。尽管传递 unicode header 也是允许的,但不建议这样做。

九.更加复杂的 POST 请求

通常,想要发送一些编码为表单形式的数据——非常像一个 HTML 表单。要实现这个,只需简单地传递一个字典给 data 参数。你的数据字典在发出请求时会自动编码为表单形式:

payload = {'key1': 'value1', 'key2': 'value2'}

r = requests.post("http://httpbin.org/post", data=payload)
print(r.text)
#{
  ...
# "form": {
#    "key2": "value2",
#    "key1": "value1"
#  },
  ...
#}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值