python 爬虫
文章平均质量分 90
python 爬虫
Yy_Rose
有需求,欢迎联系~
展开
-
nodejs 版本管理工具 nvmw
nodejs 版本管理工具 nvmw 的安装及配置,node 版本切换及安装删除,execjs 库只支持 nodejs 14.0.0 以上的版本,win7 最高只支持 node 13.14.0 版本原创 2022-10-12 10:36:16 · 5621 阅读 · 1 评论 -
Scrapy 2.6.2 代理设置,Proxy-Authorization 安全漏洞修复
最新版 Scrapy 2.6.2 代理设置原创 2022-08-24 18:38:37 · 4683 阅读 · 2 评论 -
selenium+aiohttp+aiofiles+ffmpeg → m3u8
获取 m3u8 文件加载视频,并解决 ts 文件被混淆为图片,导致无法用 ffmpeg 进行拼接合成的问题~原创 2022-05-21 16:18:56 · 2892 阅读 · 0 评论 -
Scrapy + Matplotlib 获取 Ajax 加载球员场均数据并存入数据库数据分析
Scrapy 框架的基本原理及使用,爬取 ajax 动态加载 NBA 中文网球员季后赛场均数据存入 json 文件及 MongoDB 数据库,Scrapyd 管理与部署的方法原创 2022-05-04 23:33:01 · 2712 阅读 · 0 评论 -
httpx 与 异步
HTTPX 是新一代的 python 解析库,它是一个功能齐全的 HTTP 客户端,用于Python 3,较requests(只能发送同步请求)和 aiohttp(只能发送异步请求)不同的是,它同时提供同步和异步 API,有些网站强制使用 HTTP / 2.0 协议访问,urllib 和 requests 是无法爬取数据的,它们只支持HTTP / 1.1,而 HTTPX 则全部支持。原创 2022-04-06 17:26:19 · 4944 阅读 · 0 评论 -
pyspider 框架的基本使用
pyspider 是由国人 binux 编写的强大的网络爬虫系统,pyspider 带有强大的 WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,它支持多种数据库后端、多种消息队列、JavaScript 渲染页面的爬取,使用起来很方便。原创 2022-03-19 16:59:37 · 6145 阅读 · 0 评论 -
mitmproxy 的安装使用 与 模拟器上的证书配置
抓包程序 mitmproxy 的安装及证书配置,配置证书之后无法联网的原因原创 2022-03-08 15:41:03 · 12656 阅读 · 2 评论 -
Charles 在模拟器上的配置
App 抓包工具 Charles 在模拟器上的安全证书安装配置原创 2022-03-07 16:26:16 · 5435 阅读 · 1 评论 -
Charles 的安装与配置
Charles 下载与配置,PC 端 与 手机端的证书设置详解原创 2022-02-06 12:09:25 · 1748 阅读 · 0 评论 -
代理的基本原理 及用Xpath爬取代理网站IP列表 测试并存入数据库
前言 在网络爬虫中,有些网站会设置反爬虫措施,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,例如 403 Forbidden,“您的IP访问频率过高”这样的提示,这就是IP被封禁了,这种情况下就需要进行IP伪装。代理的基本原理 代理实际上指的是代理服务器(proxy server),它的功能是代理网络用户去去的网络信息,是网络信息的中转站,一般情况下,请求访问网站时,是先发送请求给Web服务器,Web服务器再把响...原创 2022-01-09 22:38:06 · 2351 阅读 · 0 评论 -
正则表达式 详解
详解正则表达式及其相关用法,归纳总结常用的匹配规则模式原创 2021-12-26 18:09:31 · 3284 阅读 · 0 评论 -
iframe中碰到的问题及解决方法
前言 今天在做验证码识别项目的时候,一开始就碰到了一个问题,出了各种各样的报错,研究查询了很久终于解决了,在这里归纳分享一下。碰到的问题及解决方法 在我定位验证码滑块元素的时候一直显示我定位语句错误,多次调试定位方法及路径未果,后来发现这里验证码的部分是用iframe写入的,也就是子Frame,相当于页面的子页面,它的结构与外部网页完全一致,selenium在打开网页后,默认在父级Frame里面操作,所以获取不到子Frame的节点。 这时需要用...原创 2021-12-02 21:30:06 · 4398 阅读 · 0 评论 -
xpath-helper、chropath下载使用方式 及 selenium中如何配置浏览器插件
Chrome浏览器的xpath相关插件的下载方式及使用方法,并说明如何配置于selenium启动的Chrome浏览器中,以及crx格式版本问题的解决方法原创 2021-12-08 15:24:15 · 3233 阅读 · 1 评论 -
selenium+crop+chaojiying 之模拟登录超级鹰
前言 目前在学习网络爬虫中的验证码识别,今天做了个有趣的项目,用超级鹰来模拟登陆超级鹰。 超级鹰:验证码服务平台,提供验证码识别服务。 selenium:最广泛使用的开源 Web UI(用户界面)自动化测试套件之一,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到所谓的“可见及爬”,是网络爬虫中的一把利器。 crop()函数: 用于裁剪图片,使用Image中的open(file)方...原创 2021-12-01 17:22:45 · 5485 阅读 · 6 评论 -
selenium+opencv解决猫眼电影排行榜带缺口滑动验证码问题
文中提供网页源码中获取不到原图的带缺口的滑动验证码,如何获取到原图的思路,可供参考原创 2021-12-05 16:19:31 · 12648 阅读 · 1 评论