睡觉也在爬虫
文章平均质量分 71
该系列文章只进行技术探讨与知识储存,任何人试图用作非法行为后果自负。
活着Viva
要成为某个领域的专家,需要10000小时
展开
-
睡觉也在爬虫之五(放到服务器运行)
放到服务器运行前言测试环境实现步骤安装pip安装使用到的模块修改一下图片存储路径使用nohup运行脚本睡觉也在爬虫 书接上回 https://blog.csdn.net/weixin_43623271/article/details/122495858 前言 这篇文章是本系列最后一篇,主要讲如何将代码放到服务器上运行,然后一觉醒来,发现硬盘多了亿张图片。但是首先得有一台服务器,或者自己电脑不关机运行。 测试环境 Debian10.x 实现步骤 将上一篇文章的代码放到服务器中 安装pip 一开始我是没有p原创 2022-01-14 16:23:43 · 515 阅读 · 0 评论 -
睡觉也在爬虫之四(爬多组图片+异常处理)
爬多组图片为什么要异常处理思路完整代码 书接上回 https://blog.csdn.net/weixin_43623271/article/details/122495104 为什么要异常处理 你不想因为网络问题或者某张图片加载失败而抛出错误,然后整个程序中断运行吧,或者不知道出了什么问题,程序就卡在那一动不动吧。如果不想,那么就需要做异常处理了。 思路 1.使用到request.get()函数的地方加上timeout, 为防止服务器不能及时响应,大部分发至外部服务器的请求都应该带着 timeout 参原创 2022-01-14 15:49:16 · 116 阅读 · 0 评论 -
睡觉也在爬虫之三(爬多组图片)
爬多组图片爬虫思路找出每组图的urlxpath匹配所有组图去重和条件选择完整代码效果 书接上回 https://blog.csdn.net/weixin_43623271/article/details/122494386 爬虫思路 找出每组图的url 可以看到每组图都在ul元素下的li元素里,知道这点之后,就能够按照爬一组图的思路去写代码了,只不过外层多了一个循环 xpath匹配所有组图 all_pic_tag = html.xpath('//ul[@class="d1 ico3"]//li//a/@原创 2022-01-14 15:36:42 · 231 阅读 · 0 评论 -
睡觉也在爬虫之二(爬一组图片)
爬一组图片爬虫思路找到组图的页码栏找到总页数的元素查看每张图url的规律循环访问图片url并找出存放jpg的元素循环写入文件实现过程完整代码效果 书接上回 https://blog.csdn.net/weixin_43623271/article/details/122492700 爬虫思路 找到组图的页码栏 当前是第一页,也是第一张图的地址 找到总页数的元素 用xpath语法匹配 查看每张图url的规律 第一张图url 第二张图url 可以推测出图url规律 236000_x.html 循环访问原创 2022-01-14 15:08:09 · 271 阅读 · 0 评论 -
睡觉也在爬虫之一(爬一张图片)
前言 前言 该系列文章只进行技术探讨与知识储存,任何人试图用作非法行为后果自负。本原创 2022-01-14 14:33:33 · 1479 阅读 · 0 评论