python爬虫爬取豆瓣读书首页部分内容

一叶星河一

于 2021-09-17 08:53:06 发布

阅读量425

点赞数 1

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_47643553/article/details/120341509

版权

python 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

#爬虫爬取豆瓣读书首页-图书咨询部分内容
import requests
import re
#添加一个网络代理，使用代理进入网站
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
r = requests.get("https://book.douban.com/",headers=headers)
html = r.text
p='<p class="abstract">(.*?)</p>'
rst=re.compile(p).findall(html)
print(rst)#打印出找到的文字内容
#打开pathon.html网页，将爬取的内容写入到页面中
fh=open("pathon.html","w",encoding="utf-8")
for i in range(0,len(rst)):
    fh.write(rst[i]+"\n")
fh.close()

输出结果如图所示：
在这里插入图片描述对应原网页内容：
爬取所有这个部分的内容，所以滚动页隐藏的内容也会爬取

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一叶星河一

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫爬取豆瓣读书首页部分内容

#爬虫爬取豆瓣读书首页-图书咨询部分内容import requestsimport re#添加一个网络代理，使用代理进入网站headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}r = requests.get("https://book.douban.com/",header
复制链接

扫一扫