使用正则爬取糗图图片（爬虫日记1）

最新推荐文章于 2021-01-17 09:21:35 发布

weixin_44652892

最新推荐文章于 2021-01-17 09:21:35 发布

阅读量140

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44652892/article/details/110568083

版权

使用模块：
re
os
requests

import re
import os
import requests
from requests.packages.urllib3.exceptions import InsecureRequestWarning
if not os.path.exists('./趣图'):
    os.mkdir('./趣图')
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"
}
url="https://www.qiushibaike.com/imgrank/page/%d/"
for page_num in range(1,14):
    new_url=format(url%page_num)
    requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
    respones=requests.get(url=new_url,headers=headers,verify=False).text
    # <div class="thumb">
    #
    # <a href="/article/123837310" target="_blank">
    # <img src="//pic.qiushibaike.com/system/pictures/12383/123837310/medium/HETA1A501JR3YONC.jpg" alt="糗事#123837310" class="illustration" width="100%" height="auto">
    # </a>
    # </div>
    zengze='<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
    img_data=re.findall(zengze,respones,re.S)                                       #通过正则寻找符合条件的数据（获取到的是每张图片的url）
    # print(img_data)
    for src in img_data:
        src="https:"+src                                                            #拼接网址
        # print(src)
        img_data_list=requests.get(url=src,headers=headers,verify=False).content    #获取图片的二进制信息
        img_name=src.split('/')[-1]                                                 #获取图片的名称，截取的是每个图片url的最后一段，以/分割
        img_path='./趣图/'+img_name                                                  #文件的保存路径
        with open(img_path,'wb') as fp:                                             #存入文件
            fp.write(img_data_list)
        print('正在下载'+img_name)

知识点：

if not os.path.exists('./趣图'):
  os.mkdir('./趣图')

作用：判断一个文件夹是否存在，如果不存在则创建一个文件夹
os.mkdir（路径/文件夹名称）

url="https://www.qiushibaike.com/imgrank/page/%d/"
for page_num in range(1,14):

作用：实现分页爬取，观察原url发现，每页路径相同，仅仅占位符位置显示的是第几页，这样可以使用遍历，获取到每页的url.进行内容的爬取（原网页中共13页，python默认左闭右开）

 new_url=format(url%page_num)

作用：这句代码作用很简单，即将遍历产生的num与原网址进行拼接，即可获取到每页的请求网页

     zengze='<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

作用：简单的正则表达式，使用这条正则可以获取到图片的请求url

     img_data=re.findall(zengze,respones,re.S)

作用：通过findall方法，使用编写的正则获取到respones中的图片url

 	for src in img_data:
        src="https:"+src

作用：通过遍历，将每张图片的url地址进行拼接，因为原网页中图片的请求路径没有协议名

 	img_name=src.split('/')[-1]

作用：从图片url中通过’/'分隔符截取出最后一段内容作为图片名

 	with open(img_path,'wb') as fp:                                             #存入文件
          fp.write(img_data_list)

作用：将请求到的图片保存到刚才创建的文件夹下

weixin_44652892

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用正则爬取糗图图片（爬虫日记1）

这里写自定义目录标题欢迎使用Markdown编新的改变前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编你好！这是你第一次使用 Mark
复制链接

扫一扫