爬虫和办公自动化(二)
浏览器工作原理:
打开网站——寻找网站服务器——返回网站内容
爬虫工作原理:
寻找网站服务器——处理数据——存储数据
res=requests.get(网站地址’) 将服务器的响应结果存到变量res中
-
res.status_code 响应的http状态码
-
res.text 响应内容的字符串形式
-
res.content 响应内容的二进制形式
-
res.encoding 响应内容的编码
爬虫的解析和提取:
网页的本质是HTML,爬虫要解析的就是HTML。
浏览器工作原理:
打开网站——寻找网站服务器——返回网站内容
向浏览器中输入某个网址,浏览器回向服务器发出请求,然后服务器就会作出响应。其实,服务器返回给浏览器的这个结果就是HTML代码,浏览器会根据这个HTML代码将网页解析成平时我们看到的那样
例:
import requests
res=requests.get('https://baidu.com')
print(res.text)
结果会输出整个网页的源代码
网页开发,也叫web开发:HTML,CSS,JavaScript
进行