爬虫练习-爬取豆瓣网图书TOP250的数据-CSDN博客

本文链接：https://blog.csdn.net/weixin_44835732/article/details/103546841

本文介绍了如何使用Python爬虫技术抓取豆瓣网图书TOP250的数据，包括书名、作者、出版社、出版时间等，并将其存储到CSV文件中。主要使用了lxml、requests和csv等模块，通过分析URL规律和XPath解析网页内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

爬取豆瓣网图书TOP250的数据，书名、链接、作者、出版社、出版时间、价格、评分、评语，并将数据存储于CSV文件中

本文为整理代码，梳理思路，验证代码有效性——2019.12.15

环境：
Python3（Anaconda3）
PyCharm
Chrome浏览器

主要模块：
lxml
requests
csv

1.

爬取的豆瓣图书首页如下
在这里插入图片描述

2.

分析URL规律

https://book.douban.com/top250?  # 首页
https://book.douban.com/top250? start=25  # 第二页
https://book.douban.com/top250? start=50  # 第三页
https://book.douban.com/top250? start=75  # 第四页
...

可以发现首页的URL与其他的URL格式不一样，但是通过测试发现可以通过URLhttps://book.douban.com/top250?start=0来访问首页
我们用列表解析式来构造出相应的URL列表

urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]

3.

爬取书名、链接、作者、出版社、出版时间、价格、评分、评语等数据
在这里插入图片描述
分析源码，进行解析

利用Xpath对其解析

# 所有信息均在tr class="item"中，先将该模块提取出来方便进一步解析
infos = selector.xpath('//tr[@class="item"]')