![](https://img-blog.csdnimg.cn/a46be9bcb3c944efb3cdb031fd695f35.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
文章平均质量分 66
实战
IceLandk
keep coding
展开
-
动态可维护ip代理池搭建(定时更新模块)
运行没毛病,可以看到获取下来的ip都添加到我们的redis当中,接下来我们需要对ip进行过滤,定时清除掉不可用的ip,看了挺多自建ip代理池的,大部分用的都是线程池,当然也有不少用的协程,这里我们用asyncio和aiohttp来进行校验ip是否可用,对于检测代理来说,一般一个代理检测的时间需要十秒甚至几十秒的时间,我们设置的timeout只是一个上限值,这时候使用async配合aiohttp进行请求就能够大大的提高我们的检测效率。...............原创 2022-08-03 21:50:50 · 1220 阅读 · 0 评论 -
OCR识别通过某瓣人机验证
豆瓣很骚原创 2022-08-01 22:14:51 · 786 阅读 · 4 评论 -
优化某buff csgo饰品
在上一次的文章中有考虑到服务器是否会验证url当中的时间戳,因为每一次带上新的时间戳返回的数据页面都不相同,刚刚自己试了一下发现不带时间戳的影响并不大,这也就倒置每一次请求的url都会带上当前的时间戳,每一次都在变化。而我们的断点续爬的原理就是对url进行去重,这也就倒置断点续爬功能的失效。在后期的测试当中,发现无法实现断点续爬的功能,观察发现和我们自己设置的url有关系(自己挖的坑自己跳),具体部分的代码如下,arms.py文件中。继上一次的版本,继续优化。...............原创 2022-07-26 15:36:29 · 832 阅读 · 0 评论 -
某Buff CSGO饰品信息获取
自己也打csgo,就想着抓个全站数据用于可视化和预测分析,直接开始撸。本篇文章使用到redis,mysql以及scrapy框架,部分知识自行学习。原创 2022-07-25 23:37:17 · 9016 阅读 · 23 评论 -
动态可维护ip代理池搭建(爬虫模块)
之前自己就写过一个代理池,那会技术不太行,整个池子效果不是很理想(dog),最近想着优化下ip代理池。代理池整体框架可分为:获取ip的爬虫模块,简单验证可用性并储存模块,定时更新清理ip模块,api接口模块,以及一个调度器模块。 最下边是个api模块, 其他的代理平台也是可以后期加入进去的。...原创 2022-07-06 16:44:44 · 696 阅读 · 0 评论 -
获取新闻信息
在爬取新闻网站的数据时,总会遇到不少的麻烦点:文字多,顺序混乱,还夹杂着图片。处理起来确实还是有点小麻烦。这一次选一个新闻网站,同时将新闻的内容和图片保存,并且按照文件夹来划分不同的新闻。有图片也有文字,考虑到同步处理图片和文字会花费不少时间,所以我们用到异步并发来设计我们的爬虫。 把大致的框架弄出,分为请求,获取详细信息,保存,以及主函数。接着设计我们的程序。 抓包,看一下是哪个包加载了我们想要的数据,这里很简单就能够找到,然后把他的url,headers啥都扣下来就行。 传入url,请求成功,如果我们想翻译 2022-06-28 04:25:57 · 676 阅读 · 2 评论 -
MyFreeMP3 音乐网站data参数逆向
MyFreeMP3 data参数逆向随便输入一首歌然后点击查询,可以看到第一个给我们返回的包是一个api接口,需要提交正确的参数才能拿到返回的数据。data参数 data: 4be3sS0I_WBzfAHDfDvTkqRsignhZASaa8TNNtPW4LwjdhHUcw7Y2UxGjEr8KqNR4l-q9aIiMMUX直接切到Initiator跟一下栈跟到f这里之后已经可以看到了,刚开始先是对链接进行了请求,然后接着开始计算出原创 2022-05-29 17:23:30 · 3395 阅读 · 6 评论 -
异步获取到图虫上的图片
所用到的库:关于python的异步协程所用到的两个库 aiohttp 和 asyncio,能够实现异步请求,这里我为什么使用异步而不是使用requests的同步多线程,其中有几点:第一点:在获取图片和视频这类数据上异步是要比同步快的,因为同步请求的时候每一个线程必须要走完一遍全程直到把数据保存下来才算任务结束。在这过程中,如果图片或者视频数据过大,需要等待网站返回其数据,在保存的时候也需要等待写入,这一过程中咱们是没有执行任何的操作,也就是白白浪费了这一段的时间。而异步在遇到这样的情况时,会将任务挂原创 2022-04-22 21:27:22 · 310 阅读 · 0 评论