爬虫学习之图片爬取

最新推荐文章于 2024-08-24 11:00:49 发布

Yesir_C

最新推荐文章于 2024-08-24 11:00:49 发布

阅读量377

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/y2629924166/article/details/116187560

版权

爬虫专栏收录该内容

14 篇文章 0 订阅

订阅专栏

该代码实现了一个简单的网络爬虫，用于批量下载指定网页上的美女图片。它首先创建一个名为'girls'的文件夹，然后遍历1到10页，每页获取图片链接，再逐个下载图片并保存到对应的模特文件夹下，每个模特的图片按序编号。爬虫使用了正则表达式匹配HTML中的图片源，并利用requests库发送HTTP请求。

摘要由CSDN通过智能技术生成

批量爬取美女图片

import re
import os
import requests

if __name__=="__main__":
    folder = os.path.exists("./girls")
    if not folder:
        path = os.makedirs("./girls")
    for i in range(1,11):
        url='https://smtmm.win/?'
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36 Edg/89.0.774.77'
        }
        data={
            'page':i
        }
        html_data=requests.get(url=url,headers=headers,params=data).text
        pattern='<a class="thumbnail" href="(.*?)">'
        o=re.findall(pattern,html_data,re.S)
        for l in o:
            url_1='https://smtmm.win'+l
            html_data1=requests.get(url=url_1,headers=headers).text
            with open("./w.html", 'w', encoding='utf-8')as f:
                f.write(html_data1)
            pattern='<p>.*?<.*?data-original="(.*?)" alt.*?/>'
            img_data=re.findall(pattern,html_data1,re.S)
            x = 0
            pattern_1 = f'<h2><a href="{l}">(.*?)</a></h2>'
            m=re.findall(pattern_1,html_data,re.S)
            folders=os.path.exists(f"./girls/{m[0]}")
            if not folders:
                path=os.makedirs(f"./girls/{m[0]}")
                for n in img_data:
                    x+=1
                    url="https://smtmm.win"+n
                    imgs_data=requests.get(url=url).content
                    filename=f"./girls/{m[0]}/{m[0]}{x}.jpg"
                    with open(filename,'wb') as f:
                        f.write(imgs_data)
                    print(filename.split('/')[-1],"下载成功!")

Yesir_C

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习之图片爬取

批量爬取美女图片import reimport osimport requestsif __name__=="__main__": folder = os.path.exists("./girls") if not folder: path = os.makedirs("./girls") for i in range(1,11): url='https://smtmm.win/?' headers = { .
复制链接

扫一扫

专栏目录