计算机导论第三课笔记之网络爬虫

1、网络爬虫定义(来自百度百科定义)

      网络爬虫(又被称为网页 蜘蛛,网络机器人,在 FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 万维网信息的程序或者脚本。另外一些不常使用的名字还有 蚂蚁、自动索引、模拟程序或者 蠕虫

2、网络爬虫步骤

      首先、获取种子网页链接,并通过种子网页获取所有与种子网页相关的链接。

      其次、定义两个list对象,一个用于保存即将要被抓取的网页链接(初始值为种子网页链接),一个用于已被抓取的网页链接(初始值为空链表)。

      最后、通过循环完成获取所有链接。(注意点:网页与网页链接之间会有互返的情况,抓取链接时容易出现死循环,需要注意)。


3、伪代码

      start  with  tocrawl =[seed]

      crawled = []

      while there are more pages tocrawl:

            pick a page from tocrawl

            add that page to crawled

            add all the link targets on this page to  tocrawl

      return crawled

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值