计算机导论第三课笔记之网络爬虫

最新推荐文章于 2023-12-01 01:57:15 发布

爱吃莴苣笋

最新推荐文章于 2023-12-01 01:57:15 发布

阅读量296

点赞数

分类专栏：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zaqwsxedcd/article/details/74170920

版权

数据分析专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1、网络爬虫定义（来自百度百科定义）

网络爬虫（又被称为网页蜘蛛，网络机器人，在 FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

2、网络爬虫步骤

首先、获取种子网页链接，并通过种子网页获取所有与种子网页相关的链接。

其次、定义两个list对象，一个用于保存即将要被抓取的网页链接（初始值为种子网页链接），一个用于已被抓取的网页链接（初始值为空链表）。

最后、通过循环完成获取所有链接。（注意点：网页与网页链接之间会有互返的情况，抓取链接时容易出现死循环，需要注意）。

3、伪代码

start with tocrawl =[seed]

crawled = []

while there are more pages tocrawl:

pick a page from tocrawl

add that page to crawled

add all the link targets on this page to tocrawl

return crawled

爱吃莴苣笋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算机导论第三课笔记之网络爬虫

1、网络爬虫定义（来自百度百科定义）网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。2、网络爬虫步骤首先、获取种子网页链接，并通过种子网页获取所有与种子网页相关的链接。其次
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。