不吃天鹅肉-CSDN博客

原创使用DrissionPage爬虫通过滑块验证码

需要注意的是，严格一些的验证码会检测鼠标速度和轨迹，如果速度完全匀速，轨迹是一条直线是过不了的，所以在这里一个300像素的滑动条我们把前面200 使用鼠标速度0.1，也就是让鼠标稍微快一些，后面100用0.5让鼠标速度慢一些，上下滑动增加一个随机数，模拟人手抖动和速度。今天只写一个，用DrissionPage过滑动验证码。使用该模块的动作链功能去模拟鼠标操作。首先，找到对应的元素的位置。

2024-06-13 17:28:41 3044 3

原创 pyflink遇到的问题

【代码】pyflink遇到的问题。

2024-03-21 11:22:03 265

原创 CentOs安装chrome

centos安装chrome及驱动

2023-02-07 17:37:12 3457 1

原创 selenium + chrome 设置需要用户认证的代理

selenium+chrome使用代理ip

2023-02-01 18:56:54 1428 1

原创 python使用堡垒机连接hive和mysql

python 通过堡垒机/跳板机登陆hive和mysql

2022-08-15 12:00:32 991

原创 window搭建pyspark环境，不需要hadoop

Windows搭建PySpark开发环境，不需要安装Hadoop

2022-07-29 19:18:59 1426

原创 hive函数技巧整理

select count(*) from (select *,'a' as numfrom a left join b on a.id = b.id1 and a.name = 'a'

2022-06-29 21:17:47 680

众所周知，python3多线程有threading，很好的支持了多线程，那么问题来了，为什么还需要线程池呢，其实很好回答，如果你要爬取网站有八百页，每页设置一个线程，难道能开启八百个么，光切换的时间也很高了吧。这时候就需要用到线程池，可以设置一个20的线程池，同时只有20个县城在运行，剩下的排队。直接上讲解线程池模块在threading中是没有线程池相关功能的，想要运行线程池需要自己重写，很明显向我这么懒不可能重写，而且自己编写线程池很难写的比较完美，还需要考虑复杂情况下的线程同步，很容易发生死锁。所以

2022-03-30 17:05:32 5686

weixin_45621200的博客

原创本地部署chatglm3进行工具调用

原创使用DrissionPage爬虫通过滑块验证码

原创 pyflink遇到的问题

原创 python 异步协程最简单教学

原创 CentOs安装chrome

原创 selenium + chrome 设置需要用户认证的代理

原创 hive永久添加udf

原创 hive3 个人笔记

原创 pandas函数合集

原创 pyspark 读写es和mysql

原创 python logging模块的使用

原创 python使用堡垒机连接hive和mysql

原创 PYSPARK ON YARN报错集合

原创 window搭建pyspark环境，不需要hadoop

原创 hive函数技巧整理

原创 pyspark学习

原创 python各类算法集合（不断收集中）

原创 python 创建和使用线程池

原创 pyflink datastream 定时器timer详解

原创 pyflink datastream状态（state）详解

原创 pyspark从hive导出数据到clickhouse

原创 pandas大数据量rank函数nan无数据以及 SettingWithCopyWarning告警问题解决

原创 pyflinkf初试：table API与 datastream API

原创 hive 炸裂函数的使用

原创 sqoop从hive导入orc格式数据到mysql

原创 python操作邮箱发送邮件和接收邮件

原创 python主线程捕获子线程异常

原创 python读取es数据库数据并导入hive

原创 python使用openpyxl操作excel

原创 pandas读取多层嵌套json

空空如也

openpyxl删除合并单元格所在列