爬虫
文章平均质量分 66
爱敲代码的Joker
这个作者很懒,什么都没留下…
展开
-
requests如何保持headers参数顺序不变
写这篇文章是出于对猿人学第十题的少见反爬的好奇。如题:猿人学练习平台第十题也可以参考 http://match.yuanrenxue.com/match/3 同样的反爬策略。F12调试下发现无加密参数,在postman上调试拿不到对应数据将header所有参数都加入,依然得不到数据下面是对应的接口头部信息:题目已经给出线索,请求规律检测- headers,从此处出发。将所有的参数按照顺序排列。(不过在此踩了一个坑,开发者工具上的排序并不是原始顺序,而是按字母顺序。后采用抓包工具得到对应的h原创 2021-07-08 14:12:50 · 1618 阅读 · 1 评论 -
Airtest 如何添加自定义参数给脚本
最近碰到一个有意思的小问题,命令行执行air脚本时,需要动态的更改脚本里某一参数。为此各种百度 谷歌,最后还是在官方文档找到对应的思路。通常情况下,我们用的启动方式为命令行如:airtest run /Users/a1/soft/berserker/airtest.shell/phone.air --device android://127.0.0.1:5037/device这种方式无法动态更改脚本参数,在官方文档中,有自定义启动器的方法可以实现。在这个里面有自定义参数的添加方法,是.原创 2021-03-24 10:55:56 · 1479 阅读 · 0 评论 -
Python爬虫技术分享之JS入门
前言 最近在做今日头条文章数据抓取的过程中,发现视频地址的获取较为复杂。在源码与浏览器配合下发现对应的解决思路,故此记录一下。目录需要的Python模块实现思路代码及运行结果正文1.需要的Python模块 模块主要有requests(或者aiohttp),PyExecJS。 前者是请求文章的源码,后者是Python执行JS代码的依赖库,主要是生成视频地址实现思路一. 需求主要是替换原有文章中的视频及图片地址为本地储存地址,因此需要下载资源,在针对视频分析时原创 2020-10-28 18:08:31 · 388 阅读 · 0 评论 -
浅谈Xpath标签属性删除,转换为string,删除标签功能
Xpath删除指定标签# 过程:# 1.匹配到指定标签# 2.根据表属性删除scripts = html.xpath('//script')for s in scripts: s.getparent().remove(s)Xpath删除指定标签属性#过程:# 1.匹配到指定标签# 2.根据strip_attributes方法删除#strip_attributes 该方法是lxml中etree下的方法,主要是针对标签属性做更改,源码如下:def strip_a.原创 2020-09-24 17:24:04 · 1559 阅读 · 0 评论 -
Python搭建代理池
由于爬虫工作往往有大量数据需要爬取,便需要大量的备用IP更换,这时就需要用到代理IP池。将大量可以用于更换的代理IP汇聚要一起,便于管理和调用,IP池就这样产生了。IP池有一下特征:它里面的IP是持续补充的,会有源源不断的新的IP被加入到池子中。它里面的IP是有生命周期的,一但失效就会被清除出 IP池;它里面的IP是可以被任意取出,方便爬虫用户使用的。免费ip其实是不适合搭建代理池的,因为数量上面不具备优势,而且很耗时,大家需要用时间来一一排查,要做就要做好,建议大家还是选择专业一点的提供商。代理池主要原创 2020-07-02 14:32:48 · 1177 阅读 · 0 评论 -
Python常见反爬与反反爬
一.request请求头限制accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9accept-encoding: gzip, deflate, braccept-language: zh-CN,zh;q=0.9cache-control: max-age=0cookie: tk_tra.原创 2020-05-09 14:02:09 · 1067 阅读 · 0 评论