为了爬的更快一点
继续使用MongoDB
队列!!!
队列(queue)是一种具有先进先出特征的线性数据结构,元素的增加只能在一端进行,元素的删除只能在另一端进行。能够增加元素的队列一端称为队尾,可以删除元素的队列一端则称为队首。
设置url的三种状态:
等待爬取的:outstanding
爬取完成的:complete
正在进行的:processing
失败的重置为outstanding
为了处理url进程被终止的情况,需要设置一个计时参数,当超过这个值时,将状态重置为outstanding
-_______未完,留作后面水平上来了补充