2020-12-06

yzwnbxx

于 2020-12-07 00:06:55 发布

阅读量100

点赞数

分类专栏：代码学习文章标签： python

本文链接：https://blog.csdn.net/yzwnbxx/article/details/110773670

版权

代码学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、聚合爬虫应用
二、代码实现
- 1.代码
总结

前言

在学习了数据解析的基础知识后，我们进入关于聚合爬虫的应用了

一、聚合爬虫应用

爬取糗事百科中糗图模块下所有的糗图图片，并保存在文件夹中。

二、代码实现

1.代码

代码如下：

import requests
import re
import os
#需求：爬取糗事百科中糗图模块下所有的糗图图片
if __name__=="__main__":
#创建一个文件夹，保存所有的图片
if not os.path.exists('./qiutuLibs'):
    os.mkdir('./qiutuLibs')    url='https://www.qiushibaike.com/imgrank/'
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
    }
    page_text=requests.get(url=url,headers=headers).text
    #使用聚焦爬虫将页面中所有的糗图进行解析/提取
    ex='<div class="thumb">.*?<img src="(.*?)"alt.*?</div>'
    img_src_list=re.findall(ex,page_text,re.S)
    #print(img_src_list)
    for src img_src_list:
        #拼接一个完整的图片url
        src='https:'+src
        #请求图片的二进制数据
        img_data=requests.get(url=src.headers=headers).content
        #生成图片名称
        img_name=src.split('/')[-1]
        #图片存储的路径
        imgPath='./qiutuLibs/'+imh_name
        with open(imgPath,'wb') as fp:
            fp.write(img_data)
            print(img_name,'下载成功')

总结

学习了聚合爬虫的应用，爬取糗事百科中糗图模块下所有的糗图图片。接下来该解决页码的爬取了。

yzwnbxx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-12-06

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码
复制链接

扫一扫

专栏目录