requests模块
1、urllib模块+requests模块
2、python中原生的一款基于网络请求的模块,作用:模拟浏览器发送请求
3、使用(requests模块的棉麻流程)
(1)指定url
(2)发起请求
——get方法会返回一个响应对象
(3)获取响应数据
——text返回的是字符串形式的数据
(4)持久化存储
4、环境安装
pip install requests
5、实战编码:
爬取搜狗首页的页面数据
import requests
if __name__ == '__main__':
# 指定url
url = 'https://www.sogou.com/'
# 发送请求
# get方法会返回一个响应对象
response = requests.get(url)
# 获取响应数据, text返回的是字符串形式的数据
page_text = response.text
print(page_text)
# 持久化存储
with open('../sogou.html', 'w', encoding='utf-8') as fp:
fp.write(page_text)
print('爬取结束。。。')