提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
在学习了数据解析的基础知识后,我们进入关于聚合爬虫的应用了
一、聚合爬虫应用
爬取糗事百科中糗图模块下所有的糗图图片,并保存在文件夹中。
二、代码实现
1.代码
代码如下:
import requests
import re
import os
#需求:爬取糗事百科中糗图模块下所有的糗图图片
if __name__=="__main__":
#创建一个文件夹,保存所有的图片
if not os.path.exists('./qiutuLibs'):
os.mkdir('./qiutuLibs') url='https://www.qiushibaike.com/imgrank/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
}
page_text=requests.get(url=url,headers=headers).text
#使用聚焦爬虫将页面中所有的糗图进行解析/提取
ex='<div class="thumb">.*?<img src="(.*?)"alt.*?</div>'
img_src_list=re.findall(ex,page_text,re.S)
#print(img_src_list)
for src img_src_list:
#拼接一个完整的图片url
src='https:'+src
#请求图片的二进制数据
img_data=requests.get(url=src.headers=headers).content
#生成图片名称
img_name=src.split('/')[-1]
#图片存储的路径
imgPath='./qiutuLibs/'+imh_name
with open(imgPath,'wb') as fp:
fp.write(img_data)
print(img_name,'下载成功')
总结
学习了聚合爬虫的应用,爬取糗事百科中糗图模块下所有的糗图图片。接下来该解决页码的爬取了。