python3 requests库学习笔记

最新推荐文章于 2024-08-17 07:30:00 发布

wode_1024

最新推荐文章于 2024-08-17 07:30:00 发布

阅读量1.1k

点赞数 3

文章标签：爬虫 python3 requests

本文链接：https://blog.csdn.net/wode_124/article/details/82420787

版权

安装requests
pip install requests

中文文档连接:[http://docs.python-requests.org/zh_CN/latest/index.htm]

1.基本的get请求

import requests
r = requests.get("http://www.baidu.com/get")
print(type(r))
print(r.text)

2.带参数的get请求

import requests
import json

data = {'name': 'genmey', 'age': 24}
r = requests.get("http://httpbin.org/get", params=data)
# 字符串形式
print(type(r.text))
print(r.text)

# 获取二进制数据
print(r.content)
# content 是没有经过解码的,返回的是二进制数据,text是解码过的,但是是requests自己判断来进行解码的,所以有时候
# 会出现乱码的现象,所以还是使用 r.content.decode('utf-8')比较好
print(type(r.json()))  # 字典形式
print(r.json())  # 解析json

# 返回结果和上面一样
print(json.loads(r.text))

3.添加headers
有些网站访问的时候必须带有请求头,不然会报错 400 Bad Request

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore",headers=headers)
r = requests.get("https://www.zhihu.com/explore")
print(r.text)

4.关于相依的一些基本信息

import requests

r = requests.get('http://www.jianshu.com')

# 响应状态码     <class 'int'> 403
print(type(r.status_code), r.status_code)

# 响应cookies信息   <class 'requests.cookies.RequestsCookieJar'> <RequestsCookieJar[]>
print(type(r.cookies), r.cookies)

# 响应头
print(type(r.headers), r.headers)

# 响应url   <class 'str'> https://www.jianshu.com/
print(type(r.url), r.url)

# 响应  list类型  <class 'list'> [<Response [301]>]
print(type(r.history), r.history)

5.文件上传,文件上传为post方法的一部分，使用files的参数.

import requests

files = {'file': open('./file.txt', 'rb')}
r = requests.get("http://httpbin.org/post", files=files)
print(r.text)

6.获取cookies

import requests

url = "http://www.renren.com/PLogin.do"
data = {"email":"970138074@qq.com",'password':"pythonspider"}
r = requests.post(url,data=data)
# 获取cookies值
print(r.cookies)

# 以字典形式返回,{'JSESSIONID': 'abcEDBDl-OE5u9QskvLww'}
print(r.cookies.get_dict())

7.会话维持,模拟登陆session
“””
获取cookies为较为重要的方法，通过获取cookies，可以最仿真的模拟request headers，从而绕过最基本的反爬机制
但通过requests获取cookies需要维持当前的session，即会话
如通过如下方式请求当前页面两次，两次requests是独立的请求，
相当于一次浏览器请求后再用新的浏览器请求，第一次的请求cookie无效化了。
故此时需要使用session的方式来完成模拟同一浏览器访问两次的操作，并且不需要处理cookies的问题。可用于模拟登录页面。”“”

import requests
requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.org/cookies')
# 此时返回的是cookies是空的,因为两次请求是相互独立的
print(r.text)

import requests

s = requests.session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
# 此时获得的数据是
# {
#   "cookies": {
#     "number": "123456789"
#   }
# }
print(r.text)

8.对于那些已经被信任的SSL整数的网站，比如https://www.baidu.com/，那么使用requests直接就可以正常的返回响应。如果没有被信任就会报错,比如,

import requests
r = requests.get('https://www.12306.cn')
# 此时返回的报错requests.exceptions.SSLError
print(r.st)

解决方案: 对于需要证书验证的网页，将get方法里的verify参数调为False即可，或使用cert参数,如果你在请求的时候没有报错,可能现在网站的证书已经被认证了.

import requests
from requests.packages import *

r = requests.get('https://www.12306.cn', verify=False)
print(r.status_code)

import requests
r = requests.get('https://www.12306.cn', cert=('/path/server.crt', '/path/key'))
print(r.status_code)

9.超时设置和基本异常处理
有时爬虫过程会出现网站相应很久的情况，影响心情。故使用超时设置也是很好的方法，若超时则停止并报异常，或使用try语句捕捉错误。

import requests
from requests.exceptions import ConnectTimeout
try:
    r = requests.get("http://httpbin.org/get",timeout=0.1)
    print(r.status_code)
except ConnectTimeout as e:
    print("timeout")  # 返回timeout

10.代理设置,使用requests添加代理也非常简单，只要在请求的方法中（比如get或者post）传递proxies参数就可以了,就是经过第三方来处理一些事情,代理有很多作用,这里只是简单的介绍一下.

import requests

url = "http://httpbin.org/ip"

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}

# 使用代理,可以从网上找一些免费代理,肯定没有收钱的要好
proxy = {
    'http': '115.154.43.242:8123'
}
resp = requests.get(url, headers=headers, proxies=proxy)
# 将获取的内容写到一个文件中去,方便查看
with open('xx.html', 'w', encoding='utf-8') as fp:
    fp.write(resp.text)