- 博客(77)
- 资源 (5)
- 收藏
- 关注
原创 python列表 — 按顺序找出b表中比a表多出的元素
python列表 — 按顺序找出b表中比a表多出的元素有a、b两个列表,a列表有3个元素;b列表有7个元素。b列表多出的一个元素可能在随机的位置,在不影响其他元素的情况下,找到b列表多出的那四个元素,并按照在b列表的顺序打印出来。
2024-09-14 19:25:08 219
原创 python安装pyspark及其依赖环境安装
,在新环境中pip install pyspark安装。从0开始,安装后去对应虚拟环境下的site-packages里,可以直观的看到pyspark及其依赖包。pyspark的运行需要java的支持,所以你还需要有java jdk的安装包。,下载你所需的版本的包。接着找一个盘,解压后,配置系统环境变量。安装后即可在python运行pyspark。1.2、conda新建虚拟环境安装。,进去选择版本下载。解压后,配置环境变量。三、安装hadoop依赖。一、安装pyspark。二、安装java依赖。
2024-08-09 18:53:26 561
原创 python定时调度框架apscheduler的使用
BackgroundScheduler非阻塞调度器BlockingScheduler阻塞调度器任务存储器任务执行器django_apschedulerFlask-APScheduler
2024-06-28 11:25:37 375
原创 解决拉取多个不同git项目下的ssh问题
简单来讲,就是不同的git仓库需要有对应不同的ssh私钥。公钥需要在git仓库的ssh页面配置后,才能正常的提交拉取仓库代码。否则会因为公钥不匹配而报错。一般来说,git仓库的 ssh key配置在:我的—settings—ssh key。
2024-04-29 20:31:22 380
原创 postgresql中分区表相关操作
二、创建分区表三、新增分区 3.1、新增分区 3.2、批量新增分区四、删除分区 4.1、删除分区4.2、批量删除分区五、查看分区表详情
2024-04-08 16:55:10 2422 1
原创 《小聪明》
字符串前补0 python安装包镜像网站 pip无法卸载包时 dataframe设置全行或全列显示 dataframe对某一列特征编码 dataframe任意位置插入一列值 sklearn算法,输出特征方程 解决dataframe写入csv会出现科学技术法的情况 dataframe行转列(行列互换) 正则找出两个特定字符中间的所有内容 正则匹配字符串中的中文内容 正则匹配括号里的内容 try捕获具体报错的行数及文件 升级pip ip地址转int类型 ip校验 特征归一化
2023-12-15 16:30:39 968
原创 windows环境运行datax缺少本地hadoop环境报错:Could not locate executable null\bin\winutils.exe
Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
2023-12-07 10:18:56 485
原创 python连接hive报错:TypeError: can‘t concat str to bytes
2.1、进入D:\Anaconda3\lib\site-packages\thrift_sasl\__init__.py文件。2.2、添加如下代码到第101行之前。
2023-11-20 11:47:54 663
原创 hive插入动态分区数据时,return code 2报错解决
如果上面语句没有解决,可以看下yarm配置,考虑是否是语句占用内存超过配置最大内存等等。大概率是因为没有开启允许动态分区或单次动态分区个数太小了。
2023-10-23 20:16:22 3036
原创 linux中单节点安装postgresql数据库
linux中单节点安装greenpl2、安装完后会在/usr/local/下新建greenplum-db的文件夹,里面就是我们的安装的greenplum客户端。1、拷贝greenplum安装包带的配置文件到/home/gpadmin/gpconfigs/下。1、首先切换到rpm安装包所在的路径,执行如下命令。5、数据存放路径设置用户权限。6、创建配置文件路径,并进入。4、source脚本文件。5、创建数据存放路径。7、新建两个配置文件。三、安装greenplum依赖包。六、安装greenplum安装包。
2023-10-10 18:48:01 758
原创 Greeplum以每日一个区间,批量创建多个分区
如标题所示,现在需要建一张临时表来存储每日增量的流水数据。存储周期为近两年,其中日增量约1000W ~ 1200W,一年约40亿数据,两年90亿左右。经过讨论,决定用日分区的方式来建流水分区表。所以下一条语句衔接的时候一定要注意,如漏掉那么在插入当天数据的时候会提示分区找不到等错误。新建分区后,可以单独访问分区表里某一天分区数据。默认的分区名称是xxx_xxx_xxx_1_part_partition_name。则,分区表维持在近两年内即可,每日先增后删。2.2、循环创建每日的分区。2.4、删除特定分区。
2023-08-01 08:47:01 383
原创 postgresql报错:ERROR:field position must be greater than zero
知道报错的大概意思后,可以查看报错的sql语句。是不是有用某些函数处理字段,然后函数没用对的。大概意思是什么位置必须要大于0。
2023-05-09 15:28:52 596 1
原创 postgresql使用copy命令导入数据报错:ERROR:unterminated CSV quoted field
postgresql使用copy命令导入数据报错:ERROR:unterminated CSV quoted field
2023-05-04 10:50:37 2101
原创 python问题 —— 打印DataFrame出错(TypeError: ‘NoneType‘ object is not callable)
打印DataFrame出错(TypeError: 'NoneType' object is not callable)
2023-04-13 19:01:54 897
原创 使用conda更新python版本
原因是本来使用的是具有python3.6.3版本的conda环境,但是因为python内存堆栈溢出的bug问题。在更新的过程还是有几个细节需要注意下,这边做个记录。如果升级的python版本跨度太大,则要注意一些语法或函数参数在搞版本里是否有弃用更改等情况。如果在conda install python 不指定python=多少版本,那么会默认给你安装最新的。需要注意下环境变量下的anaconda3的目录位置。这时,虽然python版本是升级成功了,但是conda的版本跟python的版本又不兼容了。
2023-03-29 14:29:55 22151
原创 selenium自动获取cookies用于requests做接口请求爬虫
selenium可以用来模拟用户操作的python第三方包,而requests则是用来做接口请求。两者一结合,可能在某些方面优于单个包的爬虫。在requests请求时,我们都知道requests是需要headers信息。所以自动获取cookies等headers里关键信息就至关重要,而selenium因为是打开一个浏览器模拟用户操作的特性,使它能够获取到它自己打开的页面cookies。我们使用这个cookies传入requests,然后再使用requests做爬虫即可。
2023-03-27 10:14:56 2692 1
原创 关于自动机器学习flaml训练时的一些报错
SyntaxError: future feature annotations is not definedImportError: cannot import name 'StratifiedGroupKFold'xgboost.core.XGBoostError: C:/Users/xxx/learner.cc:567: Check failed:mparam_.num_feature != 0 (0 vs. 0) : 0 feature is supplied. Are you using raw
2023-03-24 14:33:18 1023
原创 python访问数据库的几种方式(pandas、pymysql)
Python连接数据库 pymsql sqlalchemy pandas to_sql read_sql
2023-03-14 11:22:01 1942
原创 pymysql读取数据库转换为dataframe时报错:ValueError: DataFrame constructor not properly called!
pymysql读取数据库转换为dataframe时报错:ValueError: DataFrame constructor not properly called!
2023-03-10 18:04:52 5574
原创 linux离线移植python环境,启动报错(ModuleNotFoundError: No module named ‘encodings‘;<no Python frame>)
Fatal Python error: init_fs_encoding: failed to get the Python codec of the filesystem encodingPython runtime state: core initializedModuleNotFoundError: No module named 'encodings'Current thread 0x00007fab36715740 (most recent call first):
2023-03-09 10:13:22 3639
原创 python使用requests提交post请求并上传文件(multipart/form-data)
python如何上传文件,使用requests的post上传文件。multipart/form-data格式上传。Content-Disposition: form-data; name="file"; filename="样本标签.xlsx"Content-Type: application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
2023-02-24 12:00:55 26878 17
原创 python文件编译为pyc后运行
如果运行这个py文件,Python内部会先将源码文件(.py文件)编译成字节码(byte code)文件(.pyc文件)。总结来说,pyc是一个可执行的被编译后的py文件,其特点就是在运行时,可以省去python编译器去再次编译的时间,进而就优化了性能。编译后的pyc是可跨平台的,但是python的版本是不能跨的。比如你使用3.6版本去编译好的一个pyc文件,在另一个平台上也是需要使用3.6版本的。编译后会在有源码的目录下生成一个_pycache_目录,里面存放了当前目录下所有的编译后的pyc文件。
2023-02-22 16:21:34 1406
原创 selenium运行出现DNS警告:Faild to read DnsConfig.
最近需要开发一个爬虫工具,使用的是selenium做的。最终需要打包成exe。打包的过程是非常痛苦的,因为你不知道什么时候会出现什么样不同的错误或警告。这不,一个DNS的警告直接给我干蒙了,我寻思我selenium的爬虫跟DNS有什么关系啊。反正就莫名其妙,但是呢你得解决,虽然不影响使用,但是输出的警告混杂日志输出,难免有那么一些不好看,而且后期排查错误也不好排查。
2022-12-26 14:10:41 2975 1
原创 Python中paddleocr打包时出现文件找不到的问题(已解决)
背景正在做的爬虫项目,其中需要使用ocr的功能去识别验证码。所以就使用了paddlocr,结果没想到后期这么大个坑。好在想到一个方法可能规避这个打包的问题。写这一篇文章主要是记录下在打包有paddlocr的时候的问题,及规避方法。方便给看到这篇博客及有同样问题的网友提供一个思路。
2022-12-08 19:56:40 2569 2
原创 linux下使用selenium调用谷歌浏览器的一些问题及chromedriver的下载
# 谷歌浏览器版本查看google-chrome -version # 对应的chromedriver版本查看chromedriver -version版本对应的下载,参考谷歌chromedriver对应版本下载 文章或chromedriver download 下载完成后可以选择设置成环境变量,也可以选择在代码中手动配置chromedriver的路径( /usr/bin/ )。各自选择各自方便的
2022-11-28 14:31:55 4494
原创 linux 功能性命令合集(持续更新)
【代码】linux 功能性命令合集(持续更新)一、文件类①:设置vim查看文件编码格式 ②:文件乱码 ②:后台运行py文件二、端口服务类 ①:查看进程 ②、查看网络服务(端口服务)
2022-10-27 11:24:44 888
原创 Python中的selenium库做爬虫一些关于元素找不到的问题
Python中的selenium库做爬虫一些关于元素找不到的问题出现elementfinderror异常情况大概分为以下几种: 1)查找元素本身不存在 2)元素的页面渲染跟不上速度 3)找到元素但不是最新的(常在首次进入页面刷新后出现的问题)
2022-10-24 15:03:15 3555
原创 Python爬虫自动识别验证码登陆
使用selenium先get到页面,截取登陆界面(包括验证码)。代码处理+ocr识别,自从输出验证码,再使用selenium定位到登陆元素,点击登陆即可。除上述之外还需做一个其他事情,就是假设验证码里包含x等形似数学运算符的,需要做一个判断来保持识别的准确率。
2022-09-19 10:26:51 1748
原创 Python使用selenium时使用find_elements_by_class_name导致找不到元素
在使用selenium爬虫时想找到页面中所有 class = c-id text-left 的元素,这个需求无疑是使用find_elements_by_class_name来查找,但是问题在于没有查找到,返回了一个空列表。也是上网看了下这个问题,大概意思是这个class属性有空格时表明他有多个个class属性,以本文的c-id text-left举例,class的属性有c-id及text-left两个,并不是一个整体。我总结的解决方法有两种。值得注意的是你必须要保证你放入的属性是你想找到元素的唯一。
2022-09-05 15:12:21 2580
原创 爬虫模拟点击报错elenium.common.exceptions.ElementClickInterceptedException:Message:element click intercepted
Python爬虫,模拟鼠标点击时报错解决。selenium.common.exceptions.ElementClickInterceptedException: Message: element click intercepted
2022-09-02 11:51:15 571
原创 linux安装anaconda3环境
我们一般使用windows开发比较多,但确实有些场景需要用linux做开发。这时候就需要在linux里装下Python环境供自己开发。linux安装Python环境还是比较简单的,具体可分为如下几步骤: 1)下载适用于linux系统的anaconda安装包 2)然后放置linux中,执行安装脚本 3)配置环境变量 4)验证是否安装成功 下面根据上面四步来写本片文章一、下载包
2022-07-12 11:18:55 1752
原创 Python实现Kmeans文本聚类
一、数据 数据来源于贴吧,使用爬虫爬取的。一句一行存入到txt中,接着我们要通过对每句话进行分词转向量,最后使用kmeans进行聚类并输出结果。二、代码 2.1、加载停用词 在stop_words目录下有多个停用词表,需要循环加总所有停用词。 2.2、加载数据 这边主要是对原始数据的一个筛选+jieba分词+去停用词。这是相对标准的一个流程。 2.3、计算tf-idf
2022-07-01 14:06:14 4426 1
原创 对句子分词,找到对应词的腾讯词向量模型并使用Python进行faiss检索
下载腾讯的词向量、停用词、代码部分 代码思想、输出结果 。句子相似检索,faiss检索。Python简单使用faiss检索相关向量。词转向量。word2vec
2022-06-28 14:38:19 1705 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人