1、网络爬虫定义(来自百度百科定义)
2、网络爬虫步骤
首先、获取种子网页链接,并通过种子网页获取所有与种子网页相关的链接。
其次、定义两个list对象,一个用于保存即将要被抓取的网页链接(初始值为种子网页链接),一个用于已被抓取的网页链接(初始值为空链表)。
最后、通过循环完成获取所有链接。(注意点:网页与网页链接之间会有互返的情况,抓取链接时容易出现死循环,需要注意)。
3、伪代码
start with tocrawl =[seed]
crawled = []
while there are more pages tocrawl:
pick a page from tocrawl
add that page to crawled
add all the link targets on this page to tocrawl
return crawled