Python爬虫项目实战：百度任意图片抓取

Python之栈

于 2024-05-27 13:31:48 发布

阅读量986

点赞数 27

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53707653/article/details/139235781

版权

大家好，我是南枫，这篇文章我将给大家介绍如何使用Python爬虫来达到想爬哪个明星图片就能爬下来的效果，那我们接下来看看如何实现的吧。

导入Python的requests库和re库。requests库用于发送HTTP请求，而re库用于处理正则表达式。

通过这三张图可以看出，我们需要的图片都在我标记的地方，那我们为什么要用正则表达式都知道了吧？那我们继续

打印提示信息，让用户输入关键词

获取用户输入的关键词

定义一个变量url，其值为百度图片搜索

的URL，其中包含了搜索关键词（即前面定义的keyword）

定义一个字典headers，其中包含了一个键值对，键为"User-Agent"，值为一个字符串，这个字符串描述了浏览器的信息。这是为了防止服务器识别出这是一个爬虫程序

使用requests库的get方法发送一个GET请求到指定的url，同时传入headers参数，打印出请求的结果。

使用re库的findall方法在请求结果中查找所有匹配正则表达式r'objURL":"(.*?)",'的字符串，并将这些字符串放入一个列表中。这个正则表达式用于匹配图片的URL

定义一个变量a，初始值为1，遍历上一步得到的包含图片URL的列表。每次循环，将a的值加1。打印出当前的图片URL。再次使用requests库的get方法发送一个GET请求到当前的图片URL，同时传入headers参数和timeout参数（设置超时时间为10秒），定义一个变量name，其值为一个字符串，这个字符串包含了图片的保存路径和文件名，文件名由关键词和序号组成，打印出图片的保存路径和文件名。以二进制写模式打开一个文件，文件名为name，将图片的内容写入到文件中，打印出一条消息，表示正在下载第几张图片。

关注

27
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫项目实战：百度任意图片抓取

定义一个变量a，初始值为1，遍历上一步得到的包含图片URL的列表。每次循环，将a的值加1。再次使用requests库的get方法发送一个GET请求到当前的图片URL，同时传入headers参数和timeout参数（设置超时时间为10秒），定义一个变量name，其值为一个字符串，这个字符串包含了图片的保存路径和文件名，文件名由关键词和序号组成，打印出图片的保存路径和文件名。定义一个字典headers，其中包含了一个键值对，键为"User-Agent"，值为一个字符串，这个字符串描述了浏览器的信息。
复制链接

扫一扫

Python之栈 CSDN认证博客专家 CSDN认证企业博客

码龄4年

81: 原创

2406: 周排名

1万+: 总排名

6万+: 访问

: 等级

2244: 积分

1035: 粉丝

1376: 获赞

6: 评论

728: 收藏

私信

关注

热门文章

最新评论

Python爬虫实战案例——王者荣耀皮肤抓取
DaisyMosuki: 就是不断的找url，解析，直到找到你需要的url，然后发送请求，下载。
Python爬虫实战案例——王者荣耀皮肤抓取
酒己: 所以爬虫的本质是在找url的规律
Python项目实战：海量视频资源采集
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python爬虫项目实战：虎牙直播小姐姐视频爬取
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。