python爬取网站万张美女、风景..等图片

  这是该站主页 https://pic.netbian.com/

不要从csdn这个网页进入该站,已经被禁止了,谷歌已被封禁换个浏览器可以

首先右键主页空白处

 然后点击鼠标点击的位置 

 下面代码运行效果,按住ctrl c即可停止下载

 下面是代码内容和解析

"""请求网页"""
import requests
import re
import time
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0'
}
for page in range(1, 11):
    url = f'https://pic.netbian.com/4kmeinv/index_{page}.html'
    response = requests.get(url, headers=header)
    html = response.text

    """解析网页"""
    urls = re.findall('target="_blank"><img src="(.*?)"', html)
    for url in urls:
        time.sleep(1)
        url = "http://pic.netbian.com" + url
        print(url)
        file_name = url.split("/")[-1]
        response = requests.get(url, headers=header)
        with open(f'page{page}_{file_name}', 'wb') as f:
            f.write(response.content)
            f.close()
            print('爬取完成!')

首先,导入requestsre模块。然后设置请求头header,模拟浏览器访问。接下来使用循环遍历1到10的页数,构造每一页的URL。发送GET请求获取网页内容,保存在变量html中。

接下来是解析网页的部分。使用正则表达式re.findall匹配图片的URL,并保存在列表urls中。然后对每个URL进行处理,加上网站的域名。接着是获取图片的文件名,并使用requests.get请求图片的URL。最后,使用open函数以二进制写入模式打开文件,将图片内容写入文件中。

在循环内部,使用time.sleep函数暂停1秒,避免过快爬取导致封IP。最后输出爬取完成的提示信息。

这段代码解析只是展示了爬取网页和图片的基本思路,实际使用时可能需要进行异常处理、页面跳转等操作。

直接复制就可运行

如果想换类型图片可到网站换类型将网址复制到url中即可,页数也可以更改

如有什么问题可以互动我看到会回复大家问题,作者不易给个点赞关注

希望大家不要一直爬取,这个小站也是需要维护的,会浪费掉该站的很多资源,对该站造成损失,希望大家理解。

  • 26
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值