2.3 爬虫的基本原理

最新推荐文章于 2024-05-24 22:04:07 发布

yu1069153913

最新推荐文章于 2024-05-24 22:04:07 发布

阅读量165

点赞数

分类专栏： python3 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yu1069153913/article/details/102166068

版权

python3 爬虫专栏收录该内容

17 篇文章 0 订阅

订阅专栏

爬虫的基本原理

2.3.1 爬虫概述

爬虫就是获取网页并提取和保存信息的自动化程序

一般有4个步骤：

获取网页
提起信息
保存数据
自动化程序

1. 获取网页
获取网页就是获取网页的源代码。

源代码里面包含了网页的部分有用信息，只要把源代码获取下来，就能从中提取有用信息。

Python提供了许多库来帮助我们实现这个功能，如urllib,requests等。

2. 提取信息
最常用的方法是采用正则表达式进行提取。

但是在构造正则表达式时比较复杂且容易出错。

另外，，由于网页的结构有一定的规则，所以还有一些根据网页节点属性、CSS选择器、或XPath来提取网页信息的库。

3. 保存数据
提取信息后，一般会将提取到的数据保存到某处以便后续使用。

如可以保存为TXT文本或JSON文本，也可以保存到数据库，如MySQL和MongoDB等，也可以保存至远程服务器，如借助SFTP进行操作。

4. 自动化程序
爬虫就是代替我们来完成这份爬取工作的自动化程序，它可以在抓取过程中进行各种异常处理，错误重试等操作，确保爬取持续高效地运行。

2.3.2 能抓怎样的数据

HTML源代码
JSON字符串
各种二进制数据，如图片、视频、音频等
各种拓展名的文件，如CSS，JavaScript和配置文件

上述内容都对应各自的URL，基于HTTP或HTTP协议，只要是这种数据，爬虫都可以抓取。

2.3.3 JavaScript渲染页面

有时候，在用urllib或requests抓取页面时，得到的源代码实际和浏览器看到的不一样。

这是因为现在网页越来越多的采用Ajax、前端模块化工具来构建，整个网页可能都是由JavaScript渲染出来的，原来的HTML代码就是一个空壳。

但是使用urllib或requests等库请求当前页面时，得到的只是这个HTML代码，它不会帮助我们加载JavaScript文件，这样就看不到浏览器中的内容了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2.3 爬虫的基本原理

2.3.1 爬虫概述爬虫就是获取网页并提取和保存信息的自动化程序一般有4个步骤：获取网页提起信息保存数据自动化程序1. 获取网页获取网页就是获取网页的源代码。源代码里面包含了网页的部分有用信息，只要把源代码获取下来，就能从中提取有用信息。Python提供了许多库来帮助我们实现这个功能，如urllib,requests等。2. 提取信息最常用的方法是采用正则表达式进行提取...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。