requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高
作用 : 模拟浏览器发送请求。
编码流程:
--指定url
--发起请求
--获取响应数据
--持久化存储数据
环境安装 pip install requests
需求:爬取搜狗首页的页面数据
第一步:导入requests模块: import requests
第二步:写入main函数里面
if __name__ == '__main__':
1. 指定url
url = 'https://www.sogou.com/'
2. 发起请求 get方法会返回一个响应对象
response = requests.get(url=url)
3. 获取响应数据 text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
4. 持久化存储
with open('./sogou.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print('爬取数据成功')

本文介绍了如何利用Python的requests模块进行网络请求,以爬取搜狗首页的页面内容。首先导入requests库,然后在main函数中指定URL,通过get方法发起请求并获取响应对象。接着,从响应对象中提取text内容并打印,最后将页面数据持久化存储到本地HTML文件。通过这段代码,你可以了解网络爬虫的基础操作。


被折叠的 条评论
为什么被折叠?



