爬虫和办公自动化（二）

最新推荐文章于 2024-06-01 23:35:30 发布

橙子PWDJT

最新推荐文章于 2024-06-01 23:35:30 发布

阅读量232

点赞数

分类专栏：笔记文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47016359/article/details/109138022

版权

爬虫和办公自动化（二）

浏览器工作原理：
打开网站——寻找网站服务器——返回网站内容
爬虫工作原理：
寻找网站服务器——处理数据——存储数据

res=requests.get(网站地址’) 将服务器的响应结果存到变量res中

res.status_code 响应的http状态码
res.text 响应内容的字符串形式
res.content 响应内容的二进制形式
res.encoding 响应内容的编码

爬虫的解析和提取：

网页的本质是HTML，爬虫要解析的就是HTML。

浏览器工作原理：
打开网站——寻找网站服务器——返回网站内容

向浏览器中输入某个网址，浏览器回向服务器发出请求，然后服务器就会作出响应。其实，服务器返回给浏览器的这个结果就是HTML代码，浏览器会根据这个HTML代码将网页解析成平时我们看到的那样

例：

import requests
res=requests.get('https://baidu.com')
print(res.text)

结果会输出整个网页的源代码

网页开发，也叫web开发:HTML,CSS,JavaScript

进行

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫和办公自动化（二）

爬虫和办公自动化（二）浏览器工作原理：打开网站——寻找网站服务器——返回网站内容爬虫工作原理：寻找网站服务器——处理数据——存储数据res=requests.get(网站地址’) 将服务器的响应结果存到变量res中res.status_code 响应的http状态码res.text 响应内容的字符串形式res.content 响应内容的二进制形式res.encoding 响应内容的编码爬虫的解析和提取：网页的本质是HTML，爬虫要解析的就是HTML。浏览器
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。