获取网页对象
requests是一个Python实现的简单易用的HTTP库,用它来写爬虫特别方便。
requests库--用来获取网页对象
官方文档:http://docs.python-requests.org/zh_CN/latest/
安装命令:
pip install requests
1.get方法--获得某个网页对象
import requests
url = "https://www.baidu.com/"
r = requests.get(url)
print(r)
输出结果:
<Response [200]>
【常见的HTTP状态码】
200--请求成功、
303--重定向
400--请求错误
401--未授权
403--禁止访问
404--文件未找到
500--服务器错误
2.text--获取网页的文本信息
(text是网页对象的一个属性)
r.text # r是网页对象
3.encoding--设置网页的编码格式,防止出现乱码
r.encoding ='utf-8'
通过查看charset字段找到编码格式,一般是在网页源代码开头
url = "https://www.baidu.com/"
# 获取网页对象
r = requests.get(url)
# 设置编码格式
r.encoding='utf-8'
# 输出网页文本信息
print(r.text)