Python网络爬虫1
- Requests库的7个主要方法
requests.request() 构造一个请求,支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML网页提交删除的请求,对应于HTTP的DELETE
import requests
r = requests.get("http://www.baidu.com") #get请求
print(r.status_code) #HTTP响应的返回状态
print(type(r))
print(r.headers) #获取HTML网页头信息的方法
print(r.text) #HTTP响应内容的字符串形式,即,url对应的页面内容
运行结果如下:
- Response对象的属性
r.status_code HTTP请求的返回状态,200表示连接成功,404表示失败
r.text HTTP响应内容的字符串形式,即,url对应的页面内容
r.encoding 从HTTP header中猜测的响应内容编码方式
r.apparent_encoding 从内容中分析出的响应内容编码方式(备注编码方式)
r.content HTTP响应内容的二进制形式
import requests
r = requests.get("http://www.baidu.com") #get请求
print(r.status_code) #HTTP响应的返回状态
print(type(r))
print(r.headers) #获取HTML网页头信息的方法
print(r.text) #HTTP响应内容的字符串形式,即,url对应的页面内容
print(r.content)
print(r.encoding)
print(r.apparent_encoding)
r.encoding = 'utf-8' #乱码转换
print(r.text)
运行结果如下: