- 爬虫是什么
蜘蛛是生物界中很普通的小虫子,但是它却做了一件令人非常佩服的事情–织网捕物。蜘蛛经常会在自己所织的网上捕获食物,而这一行为就如同我们人类想在关系复杂的互联网上获取我们想要的数据。人类是非常聪明和偷懒的,他是不会自己去浩海如烟的互联网中获取“食物”的。那么为了能够更高效的获取数据,人类通常会创造一只小精灵–“小爬虫”去帮助自己做事情。
- 爬虫结构
那么我们来分析一下这小精灵身上有哪些特异功能,它有若干个小脑袋–控制节点,每个小脑袋连接着若干个触角–爬虫结点。各脑袋之间可以相互交流,脑袋和各触角之间也可交流。
脑袋是需要根据请求地址来分配线程并负责调度触角的。而触角是去捕获猎物,并将猎物收拾好放入储存袋中的。 - 聚焦网络爬虫的组成以及流程(基于主题)
初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤、内容评价和链接评价,模块等组成。
1、定义或描述爬取的目标
2、获取初始URL
3、爬取页面并获得新的URL
4、过滤无关地链接并将新的URL(符合主题)入队
5、确定下一步要爬取的链接。
- 爬虫结构
网络爬虫的故事
最新推荐文章于 2024-05-10 15:05:21 发布