自动下载指定关键词的高清图片

最新推荐文章于 2024-06-03 23:10:45 发布

王者归来TT

最新推荐文章于 2024-06-03 23:10:45 发布

阅读量602

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_47248704/article/details/109270123

版权

本文讲述了作者如何通过Python爬虫自动下载指定关键词的高清二次元图片。首先，作者分析了网站的搜索规律，找到图片链接所在的HTML元素。接着，详细介绍了爬虫的逻辑步骤，包括读取网页内容、筛选符合要求的数据、获取图片URL、创建目录并保存图片。文章还提供了部分关键代码片段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.起源

最近迷上二次元高清图片，一直在网上寻找，发现一个可以下载高清图片的网站，但奈何需要手动一张张的去点击下载，非常的不便捷，以上突发奇想，能否写个爬虫自动下载呢？

2.规律查找

检索内容规律。通过手动对源代码审查，发现该网站(网站名就不写出来了，以防被封)对检索的内容是先给出一个列表结果，点击列表内的内容后才会跳转到具体的图片详情中。且全文就此处用了class="i_list list_n1"这个类别，故可以根据类别名取出对应的href 和其对应的title,

2.对进入特定的URL后，发现其高清图片得url都存储在class="content_left"的img标签里面的src属性里面，

3.代码逻辑

现在代码的逻辑很清晰，主要分为如下5步；
1.对URL内容进行读取
2.从获取的内容中，过滤出符合要求的内容，保存为{目录：URL}字典类型
3.根据第二步中保存的URL，查找出符合要求的图片URL，并保存为{目录：[图片URL]}字典类型
4.根据目录名，在指定位置处创建目录
5.将对应图片

4.部分代码实现

4.1 原始网页内容读取

 def get_html(self, url, keyword=None):
        '爬取制定网页的内容，并返回二进制内容'
        if keyword == None:
            url =url
        else:
            url =url +"/?s=" + str(keyword)
        header = {
   
        "Accept - Language": "zh-CN,zh;q=0.9",
        "User - Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 86.0.4240.75 Safari / 537.36",
        }
        res = requests.get(url=url, headers=header)
        return res.content

4.2 根据搜寻条件提取出符合要求的字典类型

     def get_file_dir(self, html):
        '特定网页解析，找寻符合要求的搜寻结果分类，并返回目录：URL的字典类型格式'
        bs = BeautifulSoup(html, "html.parser")
        infor_list = bs.findAll(name="li", attrs={
   "class": "i_list list_n1"})
        infor = {
   }
        if len(infor_list) == 0:
            print("no get infor")
        else:
            #print(len(infor_list))
            for lis in infor_list:
                key = (lis.a.attrs["title"])
                value = (lis.a