网络爬虫的学习
沐漜
。懒惰,呵呵
展开
-
学习网络爬虫
爬虫的架构通用爬虫的架构如图所示 该通用爬虫框架的流程: 1.首先选取一些网页,将这些网页的链接地址作为种子URL; 2.将这些种子URL放入到待抓取URL队列中; 3.爬虫从待抓取URL队列(队列先进先出)中依次读取URL,并通过DNS解析URL,把链接地址转换为网站服务器所原创 2012-11-27 18:05:10 · 4025 阅读 · 0 评论 -
网络爬虫中用到的宽度优先遍历算法
最近学习自己动手写网络爬虫书中涉及到了图的宽度优先遍历,其中很重要的一点是图的宽度优先遍历需要一个队列(队列的特点:先进先出)作为保存当前节点的子节点的数据结构。以上图为例图的宽度优先遍历算法描述为: 1.首先访问顶点A,将顶点A入队 2.之后因为要访问A的邻接点,应先将A出队(我认为当要访问某个节点的邻接点时,应先将该节点从使其出队,之后访问该原创 2012-11-27 18:52:14 · 5086 阅读 · 2 评论