如何加快爬虫(爬取Github API的速度)
最新
爬虫出现问题,request失败后,一个项目的都会break,需要再手动爬取
解决方案:
1 logging module
2 改变while,实现队列:这页爬完了 i+1 加到队列中 ,爬取失败后重新加入队列,这样就不用每次再开启
参考:https://blog.csdn.net/kun1280437633/article/details/80685334
3 爬取失败的放到一个list,爬取完成后,删除该list里面内容
import asyncio
import aiohttp
from bs4 import BeautifulSoup
import logging
class AsnycGrab(object):
def __init__(self, url_list, max_threads):
self.urls = url_list
self.results = {
}
self.max_threads = max_threads
def __parse_results(self, url, html):
try:
soup = BeautifulSoup(html, 'html.parser')
title &