前言
爬取豆瓣网图书TOP250的数据,书名、链接、作者、出版社、出版时间、价格、评分、评语,并将数据存储于CSV文件中
本文为整理代码,梳理思路,验证代码有效性——2019.12.15
环境:
Python3(Anaconda3)
PyCharm
Chrome浏览器
主要模块:
lxml
requests
csv
1.
爬取的豆瓣图书首页如下
2.
分析URL规律
https://book.douban.com/top250? # 首页
https://book.douban.com/top250? start=25 # 第二页
https://book.douban.com/top250? start=50 # 第三页
https://book.douban.com/top250? start=75 # 第四页
...
可以发现首页的URL与其他的URL格式不一样,但是通过测试发现可以通过URLhttps://book.douban.com/top250?start=0
来访问首页
我们用列表解析式来构造出相应的URL列表
urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]
3.
爬取书名、链接、作者、出版社、出版时间、价格、评分、评语等数据
分析源码,进行解析
利用Xpath对其解析
# 所有信息均在tr class="item"中,先将该模块提取出来方便进一步解析
infos = selector.xpath('//tr[@class="item"]')