1.爬取思路
-
访问豆瓣读书top250,并提取书籍名称。
-
把提取的书籍名称,放到搜书网站(本文使用的是熊猫搜书)。
-
把搜索的结果保存到本地。(底部有保存的文本文件,需要自提)
2.重点解析
1.豆瓣翻页爬取规律
实例代码:
#第一页网址,共10页,每页25个标题
url = "https://book.douban.com/top250?start=0"
#翻页只需更改索引,可用for循环遍历
for index in range(0,226,25):
print("https://book.douban.com/top250?start=" + str(index))
#运行结果
https://book.douban.com/top250?start=0
https://book.douban.com/top250?start=25
https://book.douban.com/top250?start=50
https://book.douban.com/top250?start=75
https://book.douban.com/top250?start=100
https://book.douban.com/top250?start=125
https://book.douban.com/top250?start=150
https://book.douban.com/top250?start=175
https://book.douban.com/top250?start=200
https://book.douban.com/top250?start=