爬虫的认识

最新推荐文章于 2023-03-16 09:04:26 发布

不会学习的小菜鸡

最新推荐文章于 2023-03-16 09:04:26 发布

阅读量719

点赞数

分类专栏： Python爬虫学习

本文链接：https://blog.csdn.net/weixin_47024013/article/details/118888650

版权

11 篇文章 0 订阅

订阅专栏

什么是爬虫？

爬虫全称网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。
为什么写爬虫？

爬虫的目的就是为了方便我们大量的，自动化的获取web页面的信息。比如，我们想要下载百度图库的“爬虫”图片：

如果下载几张十几张完全可以直接右键另存为，但当我们想要下载几百甚至几千张时，你的手一定会很痛苦。这个时候就可以写个爬虫，速度快多了，也解放了双手，何乐而不为呢？
python写爬虫有哪些优势？

很多语言都可以写爬虫，如 java, javascript, 易语言等等。之所以python写爬虫方便，首先，python这个语言本身语法简单，易学。其次，python有优秀的模块，如urllib,requests，更有简单易学的框架Scrapy,PySpider等等。

URL是什么？

统一资源定位系统（uniform resource locator;URL）是因特网的万维网服务程序上用于指定信息位置的表示方法。

scheme://host.domain:port/path/filename
- scheme，表示请求的协议
- host，定义域主机（http的默认主机是www）
- domain，定义因特网域名，比如baidu.com
- :port ，定义主机上的端口号，（http的默认端口号是80）
- path ，定义服务器上的路径（如果省略，则文档必须位于网站的根目录中）
- filename，定义文档/资源的名称
如：http://www.baidu.com/item/index.html 该URL包括三部分，http表示请求的协议是https，baidu.com是一个二级域名，该域名对应一个唯一的ip地址，/item/index.html表示请求的文件路径，即请求根目录下的item目录下的index.html文件。
我们使用浏览器访问的流程

首先，我们将网页URL输入浏览器，浏览器他会将URL发送给DNS服务器，得到目标服务器的ip,然后将请求构造成一个HTTP或者HTTPS的请求发送给该ip对应的服务器，在该服务器接收到请求并同意该请求的情况下，将目标文件（包括html，css，javascript，图片，视频等等文件）构造成一个HTTP或HTTPS响应发送给你的电脑。在你的浏览器接收到后，会将该文件渲染呈现在浏览器中，这就是一个请求的大概过程。

爬虫是如何模拟的？

实际上，我们在找到目标内容的URL后，我们只需要调用请求函数就能发送一个请求了，构造HTTP或HTTPS的请求该函数帮我们实现了的，我们并不需要自己去构造，除非为了应付一些反爬措施，我们需要去添加一些请求头信息。

关注

专栏目录