Python爬虫系列（五）360图库美女图片下载

最新推荐文章于 2022-06-04 16:18:22 发布

致Great

最新推荐文章于 2022-06-04 16:18:22 发布

阅读量1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanqianglifei/article/details/80486608

版权

这几天终于忙完毕设和学校的事情，终于有时间来写Python了（(￣▽￣)~*）。前些天在群里看到有人讨论这个360美女图库的爬取。自己今天也尝试下（蛮简单）。

因为这个网站是下拉到底底部，图片就会加载进来，所以自己想用Seleniu+PhantomJS来做，后来分享doc源代码并没有我们想要的图片信息，后来发现是js请求的数据，找到数据请求的地址，自己发现每次，下拉都会加载30张图片，所以自己将请求的其实图片张数每次加30（其实也就是模拟下拉动作，所以分析网站很重要，怎么省事怎么来吧O(∩_∩)O）下面是爬取过程和详情。

一、分析网站，找到目标的数据并分析img

首先打开开发者工具，找到network选项卡里下的doc，我们看下有没有想要的图片的src地址？

发下并没有我们要的信息

接着看我们可以看到底部srcipt，id=“initData”,通过这个id名字来看，就是初始打开这个网页的时候回默认加载30张美女图片

初始数据

然后打开network下的all选项，我们下拉浏览器，会发现下面有规律的请求地址：

（没错，这就是目标的数据请求地址，格式也是json）

ch=beuaty代表美女分类，sn={}代表每次请求30张

img的src为qhimg_url : "http://p0.so.qhimgs1.com/t01ac9283f4ba213c3c.jpg"

（ps：json的数据提取qhimg_url很简单了，和上一篇DOTA排行榜思路差不多）

json格式化工具（看的舒服些）

我上传了：格式化工具下载

二、编写代码，下载图片并存到相应路径

这里自己使用urllib库中的一个函数urlretrieve（）保存图片（很方便，很强大），然后保存的图片名称就是请求地址里的图片名称。

下载保存图片

源码地址

三、总结

整体思路简单，但是这个程序有改善的地方，比如可以获取其他分类的图片

分类

那就将beauty替换成其他字段的分类字段。还有一个就是，可以尝试多线程下载，这儿离的思路是下拉动作完成之后，获取到所有src地址之后，再去执行的下载，可以尝试下边下拉边下载。

（ps：加一张美女图片：ψ(*｀ー´)ψ）

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫系列（五）360图库美女图片下载

这几天终于忙完毕设和学校的事情，终于有时间来写Python了（(￣▽￣)~*）。前些天在群里看到有人讨论这个360美女图库的爬取。自己今天也尝试下（蛮简单）。因为这个网站是下拉到底底部，图片就会加载进来，所以自己想用Seleniu+PhantomJS来做，后来分享doc源代码并没有我们想要的图片信息，后来发现是js请求的数据，找到数据请求的地址，自...
复制链接

扫一扫

致Great CSDN认证博客专家 CSDN认证企业博客

码龄9年

中国科学院计算技术研究所

562: 原创

3636: 周排名

4018: 总排名

88万+: 访问

: 等级

7780: 积分

1万+: 粉丝

839: 获赞

247: 评论

3102: 收藏

私信

关注

热门文章

分类专栏

大模型 14篇
RAG 6篇
NLP 64篇
SD 1篇
Pytorch 3篇
比赛推送 6篇
实体识别 5篇
笔记 2篇
图神经网络 9篇
AI学习 7篇
php与Ajax 9篇
php学习 7篇
jquery学习 4篇
javascript 5篇
Qt 7篇
数据结构
2017-我的Java学习之路 1篇
Python 11篇
爬虫 4篇
机器学习 12篇
知识图谱 5篇
算法学习 13篇

最新评论

【RAG入门教程04】Langchian的文档切分
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
MMsegmentation教程 4: 自定义模型
Valonecium: 您好，可以请教一下，使用mmseg时怎么给forward传递参数吗？比如正常是forward（x），改成forward（x，y）时，y是自定义的一个tensor，怎么传给forward？
中文文本纠错工具推荐:pycorrector
7＋: 安装成功了可是运行老报错 RuntimeError: Failed to import transformers.models.bert.modeling_bert because of the following error (look up to see its traceback): Class advice impossible in Python3. Use the @implementer class decorator instead.
实体识别(4) -基于Bert进行商品标题实体识别[很详细]
DearTom_: 能给一下工程文件吗
【LLM 论文阅读】NEFTU N E: LLM微调的免费午餐
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。