爬取企查查时,连续抓取部分数据后企查查会返回405页面。
经测试,浏览器里直接访问网址都会405,但从企查查搜索结果页面里点进去就正常。
所以给爬取请求的requsts头里加入referer
字段即可继续爬取数据。
例如:
headers1 = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36',
'referer': 'https://www.qcc.com/web/search?key=%E6%88%90%E9%83%BD%E5%8A%B1%E4%BB%95%E5%A0%82%E5%A4%AA%E5%8F%A4%E9%87%8C%E9%A4%90%E9%A5%AE%E7%AE%A1%E7%90%86%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8',
'Cookie':'自己的cookie'}