自动下载指定关键词的高清图片

1.起源

最近迷上二次元高清图片,一直在网上寻找,发现一个可以下载高清图片的网站,但奈何需要手动一张张的去点击下载,非常的不便捷,以上突发奇想,能否写个爬虫自动下载呢?

2.规律查找

  1. 检索内容规律。通过手动对源代码审查,发现该网站(网站名就不写出来了,以防被封)对检索的内容是先给出一个列表结果,点击列表内的内容后才会跳转到具体的图片详情中。且全文就此处用了class="i_list list_n1"这个类别,故可以根据类别名取出对应的href 和其对应的title,
    在这里插入图片描述
    2.对进入特定的URL后,发现其高清图片得url都存储在class="content_left"的img标签里面的src属性里面,
    在这里插入图片描述

3.代码逻辑

现在代码的逻辑很清晰,主要分为如下5步;
1.对URL内容进行读取
2.从获取的内容中,过滤出符合要求的内容,保存为{目录:URL}字典类型
3.根据第二步中保存的URL,查找出符合要求的图片URL,并保存为{目录:[图片URL]}字典类型
4.根据目录名,在指定位置处创建目录
5.将对应图片

4.部分代码实现

4.1 原始网页内容读取

 def get_html(self, url, keyword=None):
        '爬取制定网页的内容,并返回二进制内容'
        if keyword == None:
            url =url
        else:
            url =url +"/?s=" + str(keyword)
        header = {
   
        "Accept - Language": "zh-CN,zh;q=0.9",
        "User - Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 86.0.4240.75 Safari / 537.36",
        }
        res = requests.get(url=url, headers=header)
        return res.content

4.2 根据搜寻条件提取出符合要求的字典类型

     def get_file_dir(self, html):
        '特定网页解析,找寻符合要求的搜寻结果分类,并返回目录:URL的字典类型格式'
        bs = BeautifulSoup(html, "html.parser")
        infor_list = bs.findAll(name="li", attrs={
   "class": "i_list list_n1"})
        infor = {
   }
        if len(infor_list) == 0:
            print("no get infor")
        else:
            #print(len(infor_list))
            for lis in infor_list:
                key = (lis.a.attrs["title"])</
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值