六、动态网页原理

8 篇文章 26 订阅
3 篇文章 0 订阅


前言

在这章中会向大家讲述动态网页和静态网页的区别和如何动态网页的原理。


提示:以下内容仅供参考学习。

一、什么是动态网页

网页有动态网页和静态网页。

静态网页在浏览器中展示的内容都位于html源码中。

动态网页:主流网站大多使用JavaScript展现网页内容,与静态网页不同的是,使用JavaScript时,很多内容并不会出现在HTML源代码中。

所以爬取静态网页的技术可能无法正常使用,因此抓取动态网页需要我们用到两种技术:通过浏览器审查元素解析真实网页地址和使用Selenium模拟浏览器的方法。

这么说对于初次入门的读者可能有点抽象,接下来笔者会先介绍几个动态网页示例来帮助读者更好了解其区别。

二、动态网页的原理

1.AJAX

读到这懵不懵?啥?你不是说要介绍一些实例?这AJAX又是什么?
稳住! 正所谓知己知彼百战不殆。

在介绍动态网页实例之前笔者会先向大家介绍动态网页的原理这就是——AJAX(Asynchronous Javascript And XML)。也就是异步JavaScript和XML。这正是动态网页的价值所在,通过在后台服务器进行少量数据交换就可以使网页实现异步更新。简单来说就是不刷新整个页面就可以对网页内部分数据进行更新。
这么做的好处一个是减少了网页重复内容的下载,另一方面节省了流量,因此AJAX得到了广泛应用。
相对静态页面 使用AJAX的页面可以使互联网应用程序更小更快,但是AJAX网页的爬虫过程比较麻烦。

2.动态网页实例

实际上这部分内容原来我已经填充过了,我以哔哩哔哩和淘宝商品页面为例,但是在过程中遇见了一些问题,请教了几位大佬后大致有了一个轮廓。于是连夜对博客进行了修改。

其实一般我们所需要登录的页面大多都是动态页面,它们是有后台有服务器的,我们所能看见的代码都是前端他们确认展示的。
举个例子。 这有一个水果,你看见的是一个苹果,外面那一层看起来红彤彤的,用小刀割下一点尝尝也的确是苹果,但是实际上它的内核是橘子。 但是这个橘子很聪明,自己可以制造一个苹果的外壳如果想要获取橘子,只靠一把小刀就不够了。

这就像动态加载网页的服务器和展现在前端的代码一样。如果要获取静态网页代码或者内容,用requests或者beautifulsoup等获取即可,但是如果要获取动态万一的真实内容,只靠这些就不够了,可能你可以获取内容,但是却并不是你想要的。

3.抓取动态网页信息

对于使用AJAX加载的动态网页,可以通过以下两种方式抓取其中内容

(1)通过浏览器审查元素解析地址
(2)通过Selenium模拟浏览器抓取

这部分内容我放到下篇博客进行分析,且听我娓娓道来。


感谢

在这感谢为我提供帮助的大佬,后续对博客我也会慢慢改进完善。

  • 14
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
中文名: JavaScript网页特效应用与开发手册 作者: 曹育诚图书分类: 网络 资源格式: PDF 版本: 扫描版 出版社: 知城数位书号: 9789570435139发行时间: 2000年10月03日 地区: 台湾 语言: 繁体中文 简介: 内容介绍: JavaScript网页特效应用大集锦 ☆「时间」特效的搜集 ☆「讯息栏」特效的搜集 ☆「变化按钮」特效的搜集 ☆「背景颜色」特效的搜集 ☆「Cookie」特效的搜集 ☆「表单控制」特效的搜集 ☆「图层控制」特效的搜集 ☆「滑鼠特效」特效的搜集 JavaScript网页特效自己做开发属於自己的网页特效 ★JavaScript的撰写基础 ★基本概念和常用的函数 ★物件概念和可用函数 ★事件的概念 ★常见问题集 内容截图: 目录: 第一部分 认识JavaScript 第1章 Javascript浅谈 1-1什么是JavaScript? 1-2如何使用Javascript 1-3 Javascript和 HTML的搭配 1-4 JavascnPt和一般程序语言的差异 1-5 Javascnpt的限制 第2章 撰写Javascnpt 2-1 JavaScript要写在网页原始代码的哪里? 2-2 Javascnpt的版本 2-3 Javascnpt的写作格式 2-4 引用一个js文件 2-5 网页编辑软件EditPlusZ 第二部分 JavaScript特效集锦 第3章 JavaScript特效集锦 3-1 网页动画 3-2 时间 3-3 状态条 3-4 跑马灯 3-5 表单 3-6 什么是Cookie 3-7 视窗控制 3-8 游标的特效 3-9 导航条 3-10 特殊特效 第三部 分程序设计浅谈 第4章 程序写作浅谈 4-1 Javascript写作概念 4-2 Javascript写作格式 4-3 Javascript语句格式 4-4 隐藏Javascript程序代码 4-5 Javascript最好写在原始代码的哪里? 4-6 注解的写法 第四部分 设计基础概念 第5章 变量 5-1 什么是变量 5-2 变量的组成 5-3 声明变量 5-4 变量的类型 5-5 数值变量 5-6 字符串变量 5-7 不同类型变量转换方式 第6章 数组 6-1 什么是数组 6-2 建立与使用数组 第7章 基本运算 7-1 基本运算概念 7-2 数学运算符 7-3 数学运算符的优先顺序 7-4 进阶的表达式写法 7-5 递增及递减的运算符 第8章 逻辑判断 8-1 逻辑概念 8-2 关系运算符 8-3 逻辑运算符 8-4 关系表达式 第9章 循环 9-1 什么是循环 9-2 while循环 9-3 do循环 9-4 for循环 第10章 函数 10-1 什么是函数 10-2 建立函数 10-3 使用函数 IO.4 传人参数与回传值 第五部分 动态网页设计 第11章 HTML与 Javascript的关系 11-1 Javascript的对象概念 11-2 两大浏览器对象概念的差异 11-3 事件 11-4 利用事件来触发 Javascnpt 第12章 Javascript的对话视窗 12-1 alerto 12-2 confirm() 12-3 prolllpt() 第13章 文件对象 13-1 属性及方法 13-2 应用技巧改变背景颜色 第14章 浏览器的信息 14-1 属性及方法 14-2 判断浏览器类型 14-3 判断浏览器的应用 第15章 视窗属性 15-1 属性及方法 15-2 开啟一个指定属性的视窗 15-3 跨越框页 第16章 时间对象 16-1 方法 16-2 显示目前时间 16-3 距离指定的日期 第17章 表单元件 17-1 属性及方法 17-2 表单元件的应用 第18章 影像的置换 18-1 属性 18-2 变化按钮原理 18-3 变化按钮延伸 第19章 COOKie 19-1 CooKie存取的函数 19-2 记录访问者喜爱的背景颜色 19-3 记录来访次数 第20章 图层属性控制 20-1 属性 20-2 可见度 20-3 位置 20-4 进阶应用且预载效果 20-5 进阶应用11动画效果 第21章 鼠标事件 211-1抓取事件的方法 21-2 IE和Nwtop的差异 21-3 判断鼠标的所在位置 第部分 附录 附录A 对象模型 附录B 鼠标右键思考 附录C 好站点推荐 附录D 光盘说明
目录 前言 第一章引论.................................................................................................................1 第一节 搜索引擎的概念................................................................................................2 第二节 搜索引擎的发展历史........................................................................................3 第三节 一些著名的搜索引擎........................................................................................7 上篇 WEB搜索引擎基本原理和技术....................................................................16 第二章 WEB搜索引擎工作原理和体系结构..........................................................17 第一节 基本要求..........................................................................................................17 第二节 网页搜集..........................................................................................................18 第三节 预处理..............................................................................................................20 第四节 查询服务..........................................................................................................22 第五节 体系结构..........................................................................................................25 第三章 WEB信息的搜集..........................................................................................29 第一节 引言..................................................................................................................29 一、 超文本传输协议..............................................................................................29 二、 一个小型搜索引擎系统..................................................................................31 第二节 网页搜集..........................................................................................................33 一、 定义URL类和Page类......................................................................................34 二、 与服务器建立连接..........................................................................................39 三、 发送请求和接收数据......................................................................................41 四、 网页信息存储的天网格式..............................................................................42 第三节 多道搜集程序并行工作..................................................................................45 一、 多线程并发工作..............................................................................................46 二、 控制对一个站点并发搜集线程的数目..........................................................47 第四节 如何避免网页的重复搜集..............................................................................47 一、 记录未访问、已访问URL和网页内容摘要信息..........................................47 二、 域名与IP的对应问题......................................................................................48 第五节 如何首先搜集重要的网页..............................................................................49 第节 搜集信息的类型..............................................................................................52 第七节本章小结..........................................................................................................54 iii 第四章对搜集信息的预处理...................................................................................55 第一节 信息预处理的系统结构..................................................................................55 第二节 索引网页库......................................................................................................56 第三节 中文自动分词..................................................................................................58 第四节分析网页和建立倒排文件..............................................................................64 第五节本章小结..........................................................................................................66 第五章信息查询服务...............................................................................................67 第一节 查询服务的系统结构......................................................................................67 第二节 检索的定义......................................................................................................68 第三节 查询服务的实现..............................................................................................69 一、 结果集合的形成..............................................................................................69 二、 查询结果显示.................................................................................................70 第四节 本章小结..........................................................................................................72 中篇 对质量和性能的追求.....................................................................................73 第章可扩展搜集子系统.......................................................................................75 第一节 天网系统概述和集中式搜集系统结构...........................................................75 一、 天网系统结构.................................................................................................75 二、 集中式搜集系统..............................................................................................76 第二节 利用并行处理技术高效搜集网页的一种方案...............................................82 一、 节点间URL的划分策略..................................................................................83 二、 关于性能的讨论..............................................................................................86 三、 性能测试和评价..............................................................................................88 四、 系统的动态可配置性设计..............................................................................91 第三节 本章小结..........................................................................................................93 第七章网页净化与消重...........................................................................................95 第一节 网页净化与元数据提取..................................................................................95 一、 引言.................................................................................................................95 二、 DocView模型..................................................................................................98 三、 网页的表示.....................................................................................................99 四、 提取DocView模型要素的方法.....................................................................103 五、 模型应用及实验研究....................................................................................108 第二节 网页消重算法................................................................................................112 一、 消重算法.......................................................................................................112 iv 二、 算法评测.......................................................................................................115 第八章高性能检索子系统.....................................................................................120 第一节 检索系统基本技术........................................................................................121 一、 系统设计与结构............................................................................................121 二、 索引创建.......................................................................................................124 三、 检索过程.......................................................................................................126 第二节 倒排文件性能模型........................................................................................127 一、 引言...............................................................................................................128 二、 倒排文件的概念............................................................................................129 三、 倒排文件的一种性能模型............................................................................131 四、 结合计算机性能指标的考虑........................................................................136 第三节 混合索引技术................................................................................................138 一、 引言...............................................................................................................138 二、 混合索引原理...............................................................................................139 三、 混合索引实现...............................................................................................141 第四节 倒排文件缓存机制........................................................................................144 一、 引言...............................................................................................................144 二、 倒排文件缓存...............................................................................................145 三、 负载特性.......................................................................................................147 四、 缓存策略的选择............................................................................................149 第五节 本章小结........................................................................................................149 第九章用户行为的特征及缓存的应用.................................................................151 第一节 用户查询与点击日志....................................................................................152 第二节 用户行为特征的统计分析............................................................................154 一、 用户查询词的分布情况................................................................................154 二、 雷同查询词的衰减统计................................................................................155 三、 相邻N项查询词的偏差分析.........................................................................156 四、 用户在输出结果中的翻页情况统计............................................................158 五、 用户点击URL的分布情况............................................................................159 、 考虑与不考虑查询项时点击URL分布的对比分析....................................160 七、 查询过程的自相似性....................................................................................161 第三节 查询缓存的使用............................................................................................164 一、 基于用户行为的启示....................................................................................164 二、 缓存替换策略研究........................................................................................165 v 第四节 用户行为与WEB信息的分布特征.................................................................167 一、 基本术语.......................................................................................................167 二、 海量Web信息的特征分析.............................................................................168 第十章相关排序与系统质量评估.........................................................................173 第一节 传统IR的相关排序技术................................................................................173 第二节 链接分析与相关排序....................................................................................176 一、 链接分析.......................................................................................................176 二、 Web查询模式下的新信息............................................................................178 第三节 相关排序的一种实现方案............................................................................182 一、 形成网页中词项的基本权重........................................................................183 二、 利用链接的结构............................................................................................185 三、 收集用户反馈信息........................................................................................187 四、 计算最终的权重............................................................................................189 第四节 搜索引擎系统质量评估................................................................................191 一、 引言...............................................................................................................191 二、 查询类别分析与查询集的构建....................................................................192 三、 评估实验的建立与分析................................................................................193 下篇 面向主题和个性化的WEB信息服务..........................................................196 第十一章中文网页自动分类技术.........................................................................197 第一节 引言................................................................................................................197 第二节 文档自动分类算法的类型............................................................................197 第三节 实现中文网页自动分类的一般过程.............................................................199 第四节 影响分类器性能的关键因素分析.................................................................201 一、 实验设置.......................................................................................................201 二、 训练样本.......................................................................................................202 三、 特征选取.......................................................................................................207 四、 分类算法.......................................................................................................210 五、 截尾算法.......................................................................................................216 、 一个中文网页分类器的设计方案................................................................218 第五节 天网目录导航服务........................................................................................219 一、 问题的提出...................................................................................................219 二、 天网目录导航服务的体系结构....................................................................220 三、 天网目录的运行实例....................................................................................221 第节 本章小结........................................................................................................221 vi 第十二章搜索引擎个性化查询服务.....................................................................223 第一节 基于WEB挖掘的个性化技术.........................................................................223 一、 Web挖掘技术................................................................................................224 二、 典型个性化Web服务系统的比较.................................................................225 三、 基于Web挖掘的个性化技术的发展.............................................................226 第二节 天网知名度系统............................................................................................227 一、 系统结构.......................................................................................................227 二、 网页与命名实体的相关度评价....................................................................231 第十三章面向主题的信息搜集与应用.................................................................235 第一节 主题信息的搜集............................................................................................235 一、 主题信息分布的局部性................................................................................235 二、 一种主题信息搜集系统................................................................................236 第二节 主题信息的一种搜集与处理模型及其应用.................................................238 一、 模型设计.......................................................................................................238 二、 应用实验:以“十大”为主题................................................................242 三、 总结与讨论...................................................................................................244 参考文献...................................................................................................................245 附录. 术语................................................................................................................256 后记...........................................................................................................................264 vii

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

袁六加.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值