![](https://img-blog.csdnimg.cn/direct/d8ff2591002e4712bc93a4cbfbab34fc.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
文章平均质量分 68
python爬虫
林小果呀
主要记录个人的学习笔记,有空也会发发技术分享类文章
展开
-
mitmproxy代理
mitmproxy是一个代理工具(软件安装 或 Python模块安装),实现代理请求(拦截请求或修改请求)。原创 2024-03-02 19:27:18 · 1738 阅读 · 0 评论 -
TLS指纹校验原理和绕过
当用浏览器访问时能够正常访问,而用代码请求却得不到相应结果。原创 2024-02-20 18:10:10 · 1583 阅读 · 0 评论 -
逆向模拟登录
网站:https://user.qunar.com/passport/login.jsp用爬虫模拟完成滑块验证+获取验证码并登录key=key,Win64;72.00;241.00;104.00;241.00;195.00;241.00;358.00;249.00;72.00;241.00;104.00;241.00;195.00;241.00;原创 2024-02-13 23:37:01 · 1536 阅读 · 0 评论 -
python执行js代码
假如在爬虫逆向分析时,发现某个js加密算法比较繁琐,用Python还原同样的算法比较费劲。此时,可以不必使用Python还原,而是利用Python去直接调用JavaScript中定义的功能。历史版本:https://nodejs.org/en/about/previous-releases。最新版本:https://nodejs.org/en/download。网站:https://www.seeseed.com/在当前目录下编写js文件v1.js。安装完后配置到环境变量。原创 2024-02-11 17:19:20 · 496 阅读 · 0 评论 -
中文点选识别
测试网站:https://www.geetest.com/adaptive-captcha-demo。原创 2024-02-11 04:14:19 · 278 阅读 · 1 评论 -
滑块识别验证
测试网站:https://www.geetest.com/adaptive-captcha-demo。原创 2024-02-10 22:51:52 · 4386 阅读 · 7 评论 -
Selenium
如果网站进行了IP访问限制,例如:每个IP每天只能操作5次。如果【选择标签】【执行操作】这种操作起来比较繁琐,也可以直接在页面上去执行js代码实现功能。如果想要正常使用selenium访问,那就需要隐藏浏览器相关的特征。注意:最新版本可以不配置驱动,selenium会自动寻找默认驱动。如果页面加载比较慢,需要等待某个元素加载成功后,再执行某些操作。有些网站为了防止selenium,会检测特征,并禁止访问。如果不想显示展示在浏览器上的操作,只想偷偷的在后台运行。找到某个标签后,可以通过截图的形式保存图片。原创 2024-02-05 22:55:34 · 4312 阅读 · 2 评论 -
ddddocr验证码识别模块
ddddocr是一个基于深度学习的OCR(Optical Character Recognition,光学字符识别)工具,主要用于中文场景文字识别。能够对图片中的文字进行识别并提取出来。原创 2024-02-04 17:18:18 · 547 阅读 · 0 评论 -
bs4模块
bs4,全称BeautifulSoup 4,是Python中一个强大的网页解析库,它可以帮助我们方便地从网页中提取数据。bs4将复杂HTML文档转换成树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag,NavigableString,BeautifulSoup,Comment。原创 2024-02-02 06:09:09 · 309 阅读 · 0 评论 -
花瓣网美女图片爬取
网站url:https://huaban.com。原创 2024-01-31 14:00:00 · 4872 阅读 · 8 评论