python爬虫——ID遍历爬虫

最新推荐文章于 2024-08-13 15:39:53 发布

柿子镭

最新推荐文章于 2024-08-13 15:39:53 发布

阅读量934

点赞数 2

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_45890771/article/details/120403203

版权

本文介绍了Python爬虫利用网站ID遍历获取内容的原理，详细讲解了代码实现，包括如何忽略页面别名，仅通过ID访问页面。同时，针对ID不连续的情况提出优化改进方案，以提高爬虫的健壮性。最后总结了ID遍历爬虫的优缺点及其局限性。

摘要由CSDN通过智能技术生成

1、原理介绍

2、代码实现

3、优化改进

4、总结

1、原理介绍

利用网站结构的弱点，更轻松地访问内容。

下面是一些示例国家（或地区）的URL

1、http://example.python-scraping.com/view/Afghanistan-1
2、http://example.python-scraping.com/view/Australia-2
3、http://example.python-scraping.com/view/Brazil-3

可以看出，这些URL只在URL路径的最后一部分有区别，包括国家（或地区）名（作为页面别名）和ID。在URL中包含页面别名是非常普遍的做法，可以对搜索引擎优化起到帮助作用。一般情况下，Web服务器会忽略这个字符串，只是用ID来匹配数据库中的相关记录。

http://example.python-scraping.com/view/1

示例网站中的链接仍然可用，网页依然可以加载成功。

2、代码实现

忽略页面别名，只利用数据库ID来下载所有国家（或地区）的页面

import itertools

def crawl_site(url,max_errors=5):
    for page in itertools.count(1):
        pg_url = '{}{}'.format(url,page)
        html = download(pg_url)
        if htm