文章目录
前言:
这篇博客涵盖了初级爬虫一些概念知识,刚开始学习爬虫时可能有些不理解,感觉繁琐,但是学到后面则慢慢逐渐发现这里的秘密,可以反过头来复习就会有很大的收获
爬虫原理可参考https://blog.csdn.net/xdc1812547560/article/details/107954805
浏览器
想要去获取数据,那么从哪里获取呢?
首先想到的,自然是网页,的确大部分数据都来源于网页,而网页则又与浏览器息息相关
浏览器抽象结构图:
👉1、用户界面(User Interface)
(1)用户界面主要包括工具栏、地址栏、前进/后退按钮、书签菜单、可视化页面加载进度、智能下载处理、首选项、打印等。除了浏览器主窗口显示请求的页面之外,其他显示的部分都属于用户界面。
(2)用户界面还可以与桌面环境集成,以提供浏览器会话管理或与其他桌面应用程序的通信。
👉2、浏览器引擎(Browser Engine)
(1)浏览器引擎是一个可嵌入的组件,其为渲染引擎提供高级接口。
(2)浏览器引擎可以加载一个给定的URI,并支持诸如:前进/后退/重新加载等浏览操作。
(3)浏览器引擎提供查看浏览会话的各个方面的挂钩,例如:当前页面加载进度、JavaScript alert。
(4)浏览器引擎还允许查询/修改渲染引擎设置。
👉3、渲染引擎(Rendering Engine)
(1)渲染引擎为指定的URI生成可视化的表示。
(2)渲染引擎能够显示【HTML】和【XML】文档,可选择【CSS】样式,以及嵌入式内容(如图片)。
(3)渲染引擎能够准确计算页面布局,可使用“回流”算法逐步调整页面元素的位置。</