爬取豆瓣图书top250

最新推荐文章于 2024-10-15 12:35:53 发布

pork_wq

最新推荐文章于 2024-10-15 12:35:53 发布

阅读量4.4k

点赞数 4

分类专栏： python python爬虫文章标签： python xpath csv 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46168535/article/details/112908722

版权

本文详细介绍了如何使用Python爬虫技术抓取豆瓣图书Top250的书籍信息，包括设置请求头，创建CSV文件，通过XPath定位数据，并解析title和href属性，最后将数据写入CSV文件中。

摘要由CSDN通过智能技术生成

爬取豆瓣图书top250

豆瓣网址：https://book.douban.com/top250
豆瓣图书第一页：https://book.douban.com/top250?start=0
豆瓣图书第二页：https://book.douban.com/top250?start=25
豆瓣图书第三页：https://book.douban.com/top250?start=50
豆瓣图书第四页：https://book.douban.com/top250?start=75
……
……

从上面可以看出来，爬取豆瓣的URL，只要把最后的数字换成25的倍数就行了，用format（）和range（）组合：

urls = ['https://book.douban.com/top250?start={}'.format(str(i*25)) for i in range(0,10)]

请求头：

headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}

创建CSV文件，待会存入数据：

import csv
f = open('C:/Users/ASUS/Desktop/doubanBook.csv','w+',newline='',encoding='utf-8')#编码换成utf-8，否则最后会出现编码异常
w = csv.writer(f)
w.writerow(('书名','书本的URL链接','作者','出版社','出版时间','书本价格','评分','评价'))#写入一行数据到CSV文件中

进入豆瓣图书网站，检查各个数据的位置，发现需要爬取的数据都在table标签里，这就是循环点，复制该标签࿰

最低0.47元/天解锁文章

pork_wq CSDN认证博客专家 CSDN认证企业博客

码龄5年

2: 原创

123万+: 周排名

154万+: 总排名

4806: 访问

: 等级

85: 积分

2: 粉丝

5: 获赞

6: 评论

19: 收藏

私信

关注

热门文章

分类专栏

python 2篇
python爬虫 2篇

最新评论

爬取豆瓣图书top250
m0_66664603: 。。这个可以用吗
爬取豆瓣图书top250
huogeer: 我发现有些地方是翻译者，会写到出版社的地方，for那里作了一些修改 for info in info1: bookName = info.xpath('tr/td[2]/div[1]/a/@title')[0] # @title是获取a标签中的title属性 info_book = info.xpath('tr/td[2]/p[1]/text()')[0] # text()用于获取标签内的文本内容 booker1 = info_book.split('/')[0] # split('/')用于分割，并以单斜杠的位置进行分割 # 有些地方的作者后是翻译者，故需要分类讨论 if '出版' in info_book.split('/')[1] or '书' in info_book.split('/')[1] or '文化' in info_book.split('/')[1]: bookHome = info_book.split('/')[1] # 索引定位由于有的书籍有翻译者，所以后三个用倒叙索引 bookTime = info_book.split('/')[2] elif '出版' in info_book.split('/')[0]: # 无作者信息，无效数据不导入 break else: bookHome = info_book.split('/')[2] # 索引定位由于有的书籍有翻译者，所以后三个用倒叙索引 bookTime = info_book.split('/')[3] bookPrice = info_book.split('/')[-1]
初学爬虫requests库（小实验）
不正经的kimol君: TQL，大大大佬
初学爬虫requests库（小实验）
从零开始的数据猿: 写的挺不错的，继续加油哦！
初学爬虫requests库（小实验）
兴趣使然的程序猿: 写得针不戳，针不戳，来互关吧

大家在看

最新文章

初学爬虫requests库（小实验）

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

>