爬虫课程安排
爬虫是什么?
爬虫-----程序
程序:通过复杂逻辑指令,实现功能。
程序运行的本质:通过代码,发送网络请求,得到响应,解析响应数据,解析需要的数据,供用户使用。
网络的工作原理
七层架构模型
应用层(准备数据),表示层(打包数据),会话层(和接收方建立对话),传输层(提供传输方式(TCP/UDP)),网络层(IP协议),数据链路层(数据转发),物理层(建立通路)
爬虫的应用场景:
爬虫和Python
爬虫合法吗?
君子协议:
开发工具:·
注意:把python添加到环境变量中
第一个爬虫程序:
具体实例:
获取百度网页数据日常手段:
爬虫手段:
通过编写程序,请求百度服务器,获取响应
爬虫----模拟浏览器访问网址的行为
第一个爬虫程序---通过编写程序,请求百度,获取内容
解释当前代码,解释编码方式
和百度网页的区别:
程序爬虫和浏览器显示的不一样
其实浏览器显示的也是这个样子
浏览器的工作原理:
五大主流浏览器
浏览器---内核,外壳
内核---渲染引擎,JS引擎
web请求全过程刨析
服务器端渲染:在服务器那边直接把数据和Html整合在一起,统一返回给浏览器
客户端渲染:第一次请求,只要一个html骨架,第二次请求拿到数据,进行数据展示,在页面源代码中看不到数据。