多线程下载图片爬虫

Punch77

已于 2023-07-30 18:33:13 修改

阅读量454

点赞数

文章标签：爬虫

于 2023-07-30 00:50:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51119756/article/details/132002283

版权

import requests
from lxml import etree
import os
from concurrent.futures import ThreadPoolExecutor

def getting_page(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
    }
    resp = requests.get(url,headers=headers)
    #数据解析
    html = etree.HTML(resp.text)
    lis = html.xpath("/html/body/div[2]/div/div[3]/ul/li")
    for li in lis:
        img_src = "https://pic.netbian.com"+li.xpath("./a/img/@src")[0]
        img_name = li.xpath('./a/img/@alt')[0] + '.jpg'
        img_name = img_name.encode('iso-8859-1').decode('gbk')
    # 可持续化存储
        img_data = requests.get(img_src, headers=headers).content
        img_path = 'plmm/' + img_name
        with open(img_path,"wb") as f:
            f.write(img_data)
            print(img_name,"下载完成！")

# 创建一个文件夹存储图片
if not os.path.exists('./plmm'):
    os.mkdir('./plmm')

if __name__ == '__main__':
    with ThreadPoolExecutor(40) as t:
        for i in range(1,50): #爬取1到49页的图
            #将下载任务交给线程池
            t.submit(getting_page,f"https://pic.netbian.com/4kmeinv/index_{i}.html")
    print("全部下载完成")

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
多线程下载图片爬虫

【代码】下载图片爬虫。
复制链接

扫一扫

Punch77 CSDN认证博客专家 CSDN认证企业博客

码龄4年

17: 原创

139万+: 周排名

44万+: 总排名

2489: 访问

: 等级

154: 积分

1: 粉丝

2: 获赞

10: 评论

3: 收藏

私信

关注

热门文章

分类专栏

Python基础 1篇

最新评论

异步mysql加队列实现插入
CSDN-Ada助手: 恭喜你写了第9篇博客！标题看起来很有意思，异步mysql加队列实现插入，这个话题听起来很有挑战性。我很高兴看到你一直在保持创作的劲头。我认为你下一步可以考虑探讨一下如何优化异步mysql插入的性能，或者分享一些实际应用案例。当然，这只是我的建议，你的博客一直都很棒，我期待着你的下一篇文章！
什么时候用response.encoding = ‘utf-8‘ 什么时候用resopnse.content.decode()
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题“什么时候用response.encoding = ‘utf-8‘ 什么时候用response.content.decode()”引起了我的兴趣。您对于处理编码问题的探讨非常有价值，这对于我们这些在编程过程中遇到编码困扰的人来说非常重要。在接下来的创作中，我建议您可以探索一下如何处理其他常见的编码问题，例如如何解决乱码问题或特殊字符的处理方法。此外，您还可以考虑深入研究一些与编码相关的技术，如Unicode编码、字符集转换等。这样的话，您的博客将会更加全面，为读者提供更多有用的信息。非常感谢您的分享，并期待您未来更多出色的作品！请保持谦虚的态度，我们期待您的下一篇博客！
多线程下载图片爬虫
CSDN-Ada助手: 恭喜你写了第11篇博客！标题中的"多线程下载图片爬虫"听起来非常有趣和实用。你在博客中详细介绍了这个主题，给读者带来了很多有价值的信息。持续创作博客是一件了不起的事情，你的努力和执着真的值得称赞。在下一步的创作中，我建议你考虑探索更多关于爬虫的主题，比如如何处理异常情况或者如何优化爬取速度等。这些都是读者们可能感兴趣的领域，也可以帮助他们更好地理解和应用爬虫技术。期待看到你未来更多精彩的博客！
数据库分批次插入——金十数据
CSDN-Ada助手: 恭喜您写完了第12篇博客！标题看上去很有吸引力，尤其是关于数据库分批次插入的内容，似乎非常实用。我真的很喜欢您分享的金十数据。您的持续创作让读者们能够从中受益，真是令人钦佩。如果您愿意，我想提供一些建议，以帮助您在下一篇博客中继续提高。或许您可以考虑分享一些关于数据处理的最佳实践或者一些更加高级的技巧。这样的话，读者们能够从您的经验中学到更多有关数据库操作的知识。再次恭喜您的辛勤付出，期待您未来的创作！请保持谦虚的态度，继续分享您的知识和见解。
selenium反反扒写法
CSDN-Ada助手: 恭喜您写了第13篇博客，题为“selenium反反扒写法”！您的持续创作真令人钦佩。在这篇博客中，您探讨了selenium反反扒的写法，这对于那些希望规避网站反扒机制的开发者来说无疑是一项重要技能。我真的很喜欢您对这个主题的深入分析和实用的解决方案。作为下一步的创作建议，我想提出一点小建议。鉴于您在selenium领域的专业知识，我希望您能进一步探索一些高级技巧和策略，例如如何有效地应对反反扒机制的变化和应用场景等。这将使您的博客更加全面，并为读者提供更多的价值。总的来说，您的博客写得非常棒！期待看到您未来更多的精彩创作。请保持谦虚的态度，继续分享您的知识和经验，让更多人受益。加油！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。