爬取页面的所有图片，学到就是赚到，即使是刚入门的也可以来尝试爬取一系列图片

最新推荐文章于 2023-10-06 23:58:30 发布

最低调的奢华

最新推荐文章于 2023-10-06 23:58:30 发布

阅读量279

点赞数

分类专栏：爬虫文章标签： python 爬虫后端

本文链接：https://blog.csdn.net/weixin_46700209/article/details/115018181

版权

爬虫专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1.拿到目标url

此时的url就是你搜索百度上这个页面的网址，然后，导入requests和re模块
上面网址中的index我们可以改成flip让他变成页码形式

import requests
import re

url='https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=&st=-1&fm=result&fr=&sf=1&fmq=1616167219402_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1616167219404%5E00_1519X326&sid=&word=%E5%A3%81%E7%BA%B8'

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.57'
}

2.拿到源码

得到网页的源代码

res = requests.get(url,headers=headers)
ret = res.text
# print(ret)

3.拿到所有图片的url

此时就用正则表达式来进行对所有照片链接的搜素

result=re.findall(r'"objURL":"(.*?)"',ret)

4.保存图片，以及对图片的处理


for i in result:

    name=i[-8:]
    name=re.sub('/','',name)

    end=re.search(r'(\.jpg|\.png|\.jpeg|\.gif)$',name)

    if end == None:
        name = name + '.jpg'
    print(name)

    with open('img/'+name,'wb') as f:
        try:
            r=requests.get(i)
        except Exception as e:
            print(e)

        f.write(r.content)

对了， with open(‘img/’+name,‘wb’) as f:我们需要先创建一个img的文件才可以哦

在这里插入图片描述

如果有想尝试的小伙伴，博主建议只修改第一个url，也就是网页的url，别的代码都可以复制下来，就可以爬取照片咯，不过还是建议学到才是赚到，不懂的私信哦！！！

最低调的奢华

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬取页面的所有图片，学到就是赚到，即使是刚入门的也可以来尝试爬取一系列图片

1.拿到目标url此时的url就是你搜索百度上这个页面的网址，然后，导入requests和re模块上面网址中的index我们可以改成flip让他变成页码形式import requestsimport reurl='https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=&st=-1&fm=result&fr=&sf=1&f
复制链接

扫一扫