Python爬虫系列（六）外国图库Unsplash图片自动化下载

致Great

于 2017-04-30 01:17:00 发布

阅读量587

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanqianglifei/article/details/80486606

本文介绍如何使用Python的Selenium和Chrome驱动自动化抓取Unsplash网站上的高清图片。通过模拟浏览器滑动行为并解析页面元素，实现了图片的批量下载。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

再做一个网站，要找一些高清图片，然后同学推荐了这个网站：Unsplash 。但是每张图片下载要手动点，然后下拉加载更多图片，效率不高，所以自己写了爬虫程序，进行自动化下载图片，自己参考了下面这篇文章(很多地方有所改动)：

Python爬虫小白入门（五）PhatomJS+Selenium第二篇

一、分析网站，找到图片的src地址

因为这个网站和上一篇的360图库差不多，图片相关信息是通过js动态加载的，所以自己先观察了下network下的XHR，果然找到想要的信息，并且响应数据是我们容易处理的json格式，但是自己爬去的时候，请求被拒绝了。。。

每次下拉请求10张图片的相关信息

但是我们直接请求的话，是直接被拒绝的。。

然后自己尝试获取网页源代码，然后找到img的源地址，通过分析发现，每张图片放在a标签里，class=“cV68d”，background-image的url地址就是图片的源地址。

图片的位置

所以大致思路是：首先通过的selenium+Chrome() （ps:我用PhantomJS有bug过不去。)模拟浏览器下拉行为，然后获取网页源代码，通过xpath和正则表达式获取到图片的源地址，然后获取图片名称，并下载保存。

二、程序代码及相关解释

1、这次使用的模块有点多，主要是为了方便操作和下载图片

程序需要用到的模块

2、驱动使用的Chrome，需要提前准备好。

初始化构造函数

2、使用execute_script()执行js脚本，实现浏览器下拉

下拉操作

3、获取a标签的style内容，然后获取到目标数据，最后执行保存图片方法

这里提到一点就是：fina_src=urlparse(' '+ src).path.strip()，这里我用空格拼接一下的目的是为了能够正确得到图片的地址，否则解析的path内容不正确

path的内容不正确

url加上的空格之后，效果是下面

正确的path内容

（ps：这个调了好长时间，，头皮发麻）

下载图片

4、执行函数，这里设置下拉三次，下载的图片不是30张，而是500多，原因也很简单：每次下拉的高度是下拉到底部，一个窗口的高度，而加载10张图片只需下拉一点高度。

过程有点慢。

三、执行效果

模拟下拉动作，然后下载

大功告成

源码：https://github.com/yanqiangmiffy/Unsplash

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。