爬取页面的所有图片,学到就是赚到,即使是刚入门的也可以来尝试爬取一系列图片

1.拿到目标url

  • 此时的url就是你搜索百度上这个页面的网址,然后,导入requests和re模块
    上面网址中的index我们可以改成flip让他变成页码形式
    在这里插入图片描述
import requests
import re

url='https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=&st=-1&fm=result&fr=&sf=1&fmq=1616167219402_R&pv=&ic=&nc=1&z=&hd=&latest=&copyright=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1616167219404%5E00_1519X326&sid=&word=%E5%A3%81%E7%BA%B8'

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36 Edg/89.0.774.57'
}

2.拿到源码

  • 得到网页的源代码
res = requests.get(url,headers=headers)
ret = res.text
# print(ret)

3.拿到所有图片的url

  • 此时就用正则表达式来进行对所有照片链接的搜素
result=re.findall(r'"objURL":"(.*?)"',ret)

4.保存图片,以及对图片的处理


for i in result:

    name=i[-8:]
    name=re.sub('/','',name)

    end=re.search(r'(\.jpg|\.png|\.jpeg|\.gif)$',name)

    if end == None:
        name = name + '.jpg'
    print(name)

    with open('img/'+name,'wb') as f:
        try:
            r=requests.get(i)
        except Exception as e:
            print(e)

        f.write(r.content)

对了, with open(‘img/’+name,‘wb’) as f:我们需要先创建一个img的文件才可以哦

在这里插入图片描述

如果有想尝试的小伙伴,博主建议只修改第一个url,也就是网页的url,别的代码都可以复制下来,就可以爬取照片咯,不过还是建议学到才是赚到,不懂的私信哦!!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

最低调的奢华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值