使用requests+re来爬取豆瓣图书！入门级爬虫案例教程！

最新推荐文章于 2024-06-07 17:16:22 发布

爬遍天下无敌手

最新推荐文章于 2024-06-07 17:16:22 发布

阅读量672

点赞数

原文链接：https://mp.toutiao.com/profile_v3/graphic/preview?pgc_id=6810626185895084551

版权

这两天在知识星球上有球友在使用requests+re来爬豆瓣图书的链接，书名及作者遇到了问题，虽然当时很快给他解决了，但由于我之前没有写这方面的文章，所以临时决定补一篇这样的文章。

首先需要说明的是，在数据抓取的时候，肯定是优先使用xpath，如果xpath不行再考虑正则或者bs4，因为xpath简单且高效!

概念性的东西这里就不说了，我们直接来实战，这里只简单说明一下，详细的需要自己去查一下资料！

要爬取的图书内容：

爬取到的数据

. 可以匹配除换行符外的字符re* 表示匹配0个或多个表达式re？匹配0个或多个由前面正则表达式定义的片段，非贪婪模式,且只匹配前一个

首先我们需要完全抓取，所以我们要使用re.findall方法，又因为数据全部在<li class>中,需要只需要对这个里面数据处理
然后每一列来匹配 <li class> 因为还需要向后匹配查找，所以需要添加.*? 匹配一次,非贪婪模式. 等等匹配到cover下面的目录，我们可以匹配到href,获取再匹配标题，但alt包含标题，所以这里直接来提取alt="(.*?)",
接着需要提取数据出来这里使用(.*?) 把数据提出来，这里有多个数据需要提取，然后用数组呈现出来
更多有趣代码案例教程加群：850591259

完整代码

import requests
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

url = 'https://book.douban.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)\
Chrome/55.0.2883.87 Safari/537.36'}
html = requests.get(url, headers=headers)
html.encoding = 'utf-8'
# 这里我只取了链接与标题
patter = re.compile('<li class.*?cover.*?href="(.*?)".*?alt="(.*?)".*?<p class="author".*?>(.*?)</p>', re.S)
titles = re.findall(patter, html.text)
for each in titles:
    print '书籍链接:{},书籍标题：{},---书籍作者：{}'.format(each[0], each[1],each[2].str

爬遍天下无敌手

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
使用requests+re来爬取豆瓣图书！入门级爬虫案例教程！

这两天在知识星球上有球友在使用requests+re来爬豆瓣图书的链接，书名及作者遇到了问题，虽然当时很快给他解决了，但由于我之前没有写这方面的文章，所以临时决定补一篇这样的文章。首先需要说明的是，在数据抓取的时候，肯定是优先使用xpath，如果xpath不行再考虑正则或者bs4，因为xpath简单且高效!概念性的东西这里就不说了，我们直接来实战，这里只简单说明一下，详细的需要自己去...
复制链接

扫一扫