爬虫
文章平均质量分 50
知识中的海王
在学习中进步
展开
-
Playwright控制本地浏览器绕过检
Playwright可以与本地Chrome浏览器通过ws方式通信,这样可以绕过大部分浏览器检测,因为这就是一个真正的浏览器,使得调用真实的浏览器更容易,同时能够保留浏览器的登录信息和cookie。原创 2024-04-26 16:27:51 · 395 阅读 · 0 评论 -
SyntaxError: Non-UTF-8 code starting with ‘\xc7‘ in file
脚本包含非 UTF-8 编码的字符,并且没有指定文件编码。在 Python 中,为了正确处理文件中的特殊字符,你需要在脚本的开头声明文件编码。按道理原来是UTF-8的形式时没问题的话,那应该在代码的开头加个默认utf-8,就可以了。原创 2024-04-22 13:07:56 · 319 阅读 · 0 评论 -
python onnxruntime DLL load failed: 找不到指定的模块
报错:ImportError: DLL load failed while importing onnxruntime_pybind11_state: 找不到指定的模块。这个错误通常是因为缺少onnxruntime_pybind11_state.dll文件或者没有正确安装onnxruntime库导致的。1.8.0版本,升级pip再重装ddddocr均无效。一般是缺少微软运行库环境,在安装ddddocr。原创 2024-04-16 16:25:24 · 704 阅读 · 2 评论 -
python 随机获取User-Agent用户代理
我们在写爬虫时需要伪造浏览器User-Agent,可以手动准备,但太麻烦了,也可以用第三方库自动生成。原创 2024-03-08 11:33:58 · 267 阅读 · 0 评论 -
python 使用curl_cffi绕过指纹识别解决ja3指纹
比requests/tls_client快分开,和aiohttp/pycurl的速度比肩。curl_cffi 可模拟真实浏览器的 TLS | JA3 指纹。遇到一个网站,忽然发现无论如何如何更换UA和代理请求都是。支持JA3/TLS和http2指纹模拟;原创 2023-12-21 19:00:00 · 1808 阅读 · 0 评论 -
selenium 驱动webdriver 安装
注意一定不要去点,谷歌浏览器设置去查看版本,它会自动更新成最新版本,要是不小心更新了,可查看这篇文章降级处理。2.驱动器下载版本跟浏览器版本前3个点一致,最后那个不一致都没关系。本机浏览器版本:104.0.5112.81。1.下载谷歌浏览器驱动器。原创 2023-08-24 15:51:47 · 170 阅读 · 1 评论 -
Chrome浏览器降级低版本教程
找到谷歌浏览器文件位置,删除C:Program Files/ 下谷歌应用文件, 可以右击谷歌浏览器快捷方式,打开文件所在位置,删除Google文件夹;(我的电脑没有AppData文件夹,若没有删除这个文件夹,不影响后续操作,但是有的话最好删除一下),找到Updater或GoogleUpdater文件夹,属性–>安全–>将所有的权限改为拒绝,注 :安装不上通常原因都是之前安装过chorme浏览器,但是卸载的时候有残余,要清理残余的。在任务管理器里找到GoogleUpdate,运行中的,直接结束任务。原创 2023-08-21 15:38:46 · 10651 阅读 · 1 评论 -
python爬虫视频m3u8实战
与直接播放MP4等视频文件不同,HLS将流媒体切分为若干TS片段,并通过一个扩展的M3U8列表文件将这些TS片段批量下载供客户端播放器实现实时流式播放。因此,在爬取HLS流媒体文件时,我们一般的思路是先下载M3U8文件并分析其中的内容,然后根据文件中定义的TS片段进行批量下载,最后将它们组合成MP4文件或直接保存TS片段。例如m3u8文件下载不下来,ts片段文件被加密了,甚至加密ts片段的密钥也被加密了。我这里省流,就没去合并视频,后面合并的步骤也简单。上完整代码,我没合并哈,原创 2023-08-18 17:30:00 · 1125 阅读 · 2 评论 -
快速构造Python爬虫请求,有这个网站就够了!!!
以上就是curlconverter的使用方法,尤其是面对一些复杂请求时,能极大地提升我们的开发效率,!!更多精彩内容请关注公众号:笔记分享社。原创 2023-05-06 20:30:00 · 564 阅读 · 0 评论 -
轻松解决python爬虫TTPSConnectionPool(host=‘www.webscan.cc’, port=443): 问题
已解决HTTPSConnectionPool(host=‘www.webscan.cc’, port=443): Max retries exceeded with url: /site_taobao.com (Caused by SSLError(SSLCertVerificationError(1, ‘[SSL: CERTIFICATE_VERIFY_FAILED]报错代码如下:原因 SSL 证书报错。原创 2023-03-23 19:30:00 · 906 阅读 · 0 评论