爬虫和办公自动化(一)
请求:在浏览器输入网址(URL)。然后浏览器去访问该网址对应的服务器,这个过程叫 请求
响应:服务器将网站内容发送给浏览器,这个过程叫 响应(response)。
爬虫的三个步骤:
1.获取数据,爬虫会根据我们提供的网址,向服务器发起请求获取数据;
2.处理数据,对获取的数据进行处理,得到我们需要的部分;
3.存储数据,将处理后的数据保存起来,便于后续的使用和分析等。
爬虫最常用的发起请求的第三方库:requests
requests.get()方法
获取数据 使用requests.get(‘网址’)方法想对应的网站发起了请求,将返回的结果存到变量res中供后续使用,它的类型是Response对象.
例:
import requests # 导入 requests 模块
res = requests.get('https://www.baidu.com') # 发起请求
print(res)
输出:<Response [200]> 200是状态码
Response 对象
Response 对象的常用属性:
- res.status_code 响应的HTTP状态码
- res.text 响应内容的字符串形式
- res.conten 响应内容的二进制形式
- res.encoding 响应内容的编码