python爬虫之requests（1）-全流程公式

最新推荐文章于 2024-05-07 00:46:55 发布

weixin_48737462

最新推荐文章于 2024-05-07 00:46:55 发布

阅读量272

点赞数

分类专栏： python爬虫文章标签： python http

本文链接：https://blog.csdn.net/weixin_48737462/article/details/108556591

版权

python爬虫之requests（1）实战：爬取百度网页html1.指定URL2.UA伪装3.发起请求（模拟浏览器）requests(URL=URL,Headers=headers)4.获取响应数据返回response对象Content-Type查看是text/html还是Json格式5.持久化存储补充response属性# respone属性print(respone.text) # 获取响应的页面内容print(respone.content) # 获取二进制页面内容

摘要由CSDN通过智能技术生成

python爬虫之requests（1）

实战：爬取百度网页html
1.指定URL
2.UA伪装
3.发起请求（模拟浏览器）
requests(URL=URL,Headers=headers)
4.获取响应数据
返回response对象
Content-Type查看是text/html还是Json格式
5.解析数据
Beautifulsoup、正则表达式、xpath
6.持久化存储

补充response属性

# respone属性
print(respone.text) # 获取响应的页面内容
print(respone.content) # 获取二进制页面内容

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_48737462

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之requests（1）-全流程公式

python爬虫之requests（1）实战：爬取百度网页html1.指定URL2.UA伪装3.发起请求（模拟浏览器）requests(URL=URL,Headers=headers)4.获取响应数据返回response对象Content-Type查看是text/html还是Json格式5.持久化存储补充response属性# respone属性print(respone.text) # 获取响应的页面内容print(respone.content) # 获取二进制页面内容
复制链接

扫一扫