Python爬取学习基础案例之re正则

最新推荐文章于 2024-09-14 21:53:48 发布

蚂蚁爱Python

最新推荐文章于 2024-09-14 21:53:48 发布

阅读量125

点赞数 1

分类专栏： Python Python实战项目基础知识文章标签：学习爬虫 pycharm

本文链接：https://blog.csdn.net/xff123456_/article/details/125227348

版权

Python 同时被 3 个专栏收录

347 篇文章 37 订阅

订阅专栏

Python实战项目

233 篇文章 27 订阅

订阅专栏

基础知识

206 篇文章 10 订阅

订阅专栏

爬取的目标对象：豆瓣图书标签: 历史 (douban.com)

关于豆瓣历史书籍

在这里插入图片描述

爬取该标签下的书籍信息，这里不做保存处理，只打印显示信息。

Python学习交流Q群：906715085####
一、先分析分析
1、链接
首先它是分成许多页的，

第一页的链接：https://book.douban.com/tag/%E5%8E%86%E5%8F%B2

第二页：           https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=20&type=T

第三页：           https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=40&type=T

第四页：           https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?start=60&type=T

 

可以看到第一页除外，其它的只有start=不同，都是20的倍数，把start=0试一下确实是第一页

可以猜测：tag就是标签标签后面到？之间的就是 '历史' 的某种编码。每一页有20本书籍