自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 java ProcessBuilder start 后进程一直卡住如何处理

【代码】java ProcessBuilder start 后进程一直卡住如何处理。

2024-06-13 11:27:01 79 1

原创 pyav 处理 rtsp 视频流 options 参数选项

pyav 连接 rtsp 格式视频流参数选项

2024-03-19 11:03:35 481

原创 win10 docker 启动报错: Hardware assisted virtualization and data execution protection must be enabled in

win10 启动docker 报错: Hardware assisted virtualization and data execution protection must be enabled in the BIOS

2024-03-07 11:22:05 729

原创 maven项目如何引入外部提供的sdk或本地打好的jar包

maven引入本地jar包

2023-12-15 09:51:44 496

原创 使用 python multiprocessing.Queue 出现 too many open files 错误

使用 python multiprocessing.Queue 出现 too many open files

2023-09-05 14:47:41 769

原创 简易日志清理脚本

日志清理命令/脚本

2023-08-22 11:20:53 160

原创 flink 本地调试报 No ExecutorFactory found to execute the application.

使用idea和maven本地调试flink报 No ExecutorFactory found to execute the application.,在网上找了一圈,说是少了 client 依赖包。不同版本的依赖包,包名写法有一些差异。可以直接去maven仓库找需要的依赖。

2023-06-27 16:21:25 767

原创 【无标题】mysql 5.7如何手动实现 LEAD() OVER

mysql 5.7 手动实现 lead() over

2023-06-01 16:42:40 622

原创 windows 环境修改 Docker 存储目录

windows 下安装docker,并指定存储路径和安装路径到C盘外的盘

2023-04-12 15:26:43 2031

原创 CDH集群问题处理 -- NTP服务不同步,系统盘占用多的迁移

CDH集群常见问题 -- 服务器时间不同步,系统盘占用多,CDH停机重启

2023-02-10 11:16:17 336

原创 springboot集成easyexcel实现服务器无存储的文件下载

业务背景系统中存在大量的统计业务。统计查询条件基本都是根据时间和多个条件的组合进行分页查询,并返回查询结果统计导出功能导出的是符合条件的所有数据,不仅是当前页面展示的分页数据,所以导出功能需放在服务端完成统计业务较多,统计结果返回数据没有添加对应的视图类,而是直接返回的map数组序列化成的json返回的excel数据,除了字段相关的header,header行之前还有一些特殊说明,直接调用excel的api写excel的头会比较麻烦集成easyexcelpom中添加依赖 &l

2022-03-10 15:57:03 464

原创 spring JPA 处理字段名动态变化的条件查询

业务需求有工厂设备信息表 machine_info ,有字段 id, machine_name, factory_name, machine_code, machine_location 等,现要求页面上需要根据以上的某一个条件过滤出对应的设备并展示.程序实现参考https://stackoverflow.com/questions/47407043/spring-data-jpa-pass-column-name-and-value-as-parametershttps://segmen

2022-02-09 14:12:01 1245

原创 streamsets任务批量管理尝试

使用 streamsets 处理导数据,可以做到在页面拖拉拽创建一个pipeline,就能打通数据通道在需要接入的业务系统很多的情况下,我们就会创建很多的pipeline,用来导数据在大量使用全量导入,做T+1数据的情况下,如何管理 streamsets 各个导数据的pipeline的执行会是个比较重要的问题在此尝试了两种方式来管理 streamsets pipeline 的批量执行方式一: 使用python直接调streamsets API 的方式思路简介将需要按时调用的pipeline.

2022-01-11 15:39:57 688

原创 navicat连oracle测试连接闪退

业务中需要连接很多oracle的业务库,之前使用navicat连接过几个,都没出问题,后面连接一个库的时候发现测试连接时navicat会闪退。后面在网上找,发现是oracle客户端工具可能有问题。于是去oracle官网上下载了对应的客户端,再连接就没问题了具体操作:下载oracle客户端,百度搜 oracle InstantClient download 或使用上面的链接都可以下载后将客户端工具减压,放到比较好管理的地方,我放到了navicat安装目录下启动navicat -> 工具 .

2021-12-22 09:55:58 1266

原创 unable to login from keytab: Decrypt integrity check failed - 记一次手残经历

前两天在CDH上用命令行访问impala,因集群添加了kerberos认证,访问需要先认证。在目录里找了一圈没有找到能成功认证的keytab,然后就自己去网上搜索如何生成keytab,结果keytab没有生成成功,那个节点上impala的principal密码还被改了。正好这个节点上运行了impala的catalog server,于是整个impala集群就启动不了。目前集群又没有运维的支持,只能自己去搞前期查到是认证问题后,就各种百度,bing搜索,看一圈下来,基本没有能当下处理情况的信息。后来去.

2021-10-29 17:36:36 826

原创 大数据清理脚本

大数据计算过程中可能会遗留大量的日志,中间文件,以及过期的计算结果在数据量是很大的情况下,这些数据会占用很多存储资源,甚至可能导致因磁盘满载出现机器停止运行的问题下面是笔者在工作中编写的用于清理这些数据的脚本,目前可清理数据有:本地日志和其它文件hdfs目录hive表hbase表详情见代码: https://github.com/xufwind95/data_cleaner...

2021-08-11 13:47:41 185

原创 如何找出流程中的循环依赖

开发过程中,碰到流程性质的业务时,可将一个个流程抽象成一个个的执行对象流程之间会有依赖关系,现在就变成了对象之间的依赖关系对象的依赖关系如果碰到循环依赖的话整个执行就会变成一个死循环如果流程特别多,出现循环依赖的话,人工排查就会特别费事如何在代码中排查循环依赖,并确定哪些地方有循环依赖,直接见代码def get_dependency_lst(): return [ ("A", ["B", "C", "D"]), ("B", ["B", "C", "A"].

2021-07-14 15:26:05 1073

原创 hive 集群内复制数据库

引子工作中碰到几个外部项目使用相同数据库结构和基础数据的数据库为了每个项目的数据独立性可复制数据库出来给每个项目单独操作使用非导出的方式在hive集群内复制数据库创建数据库create database if not exists new_db_name;编写建表语句,表比较多的可以将表名全部拿出来后使用shell或python处理成创建表的文本use new_db_name;create table table_name like old_db_name.table_name;复制

2021-07-13 10:52:55 663

原创 spark参数调优

引子开发大数据的程序时间一长,就会发现和以前开发其它程序的方式有很大的不同。除了要将更多的关注点放在数据上之外,一个很重要的事情是,你开发的程序在测试库运行的好好的,到线上数据量大之后,程序执行就可能会出各种问题,有时狂加资源程序也不能很好的执行。这其中就会涉及到一些spark程序调优方面的内容,网上一翻,会出现一大堆这种方面的东西,有些还是很有用的,能解决工作中的实际问题。这里就将工作中碰到的调优问题和解决方案做分享执行参数调优spark的每一个参数格式及对参数的解释和默认值都能在官网上

2021-06-23 19:36:52 555

原创 接雨水算法题实现

一维接雨水算法题实现https://leetcode-cn.com/problems/trapping-rain-water/def trap_rain_water(height): # 思路: 一个格子能不能接到雨水,能接到多少雨水,由其两边最高的"墙"决定 # 从第二个位置遍历每个格子,遍历到倒数第二个,找到每个格子两边最高的墙 # 格子高于等于墙高则无法接住雨水,如果比墙低,则能接住较低的墙减去格子高度的雨水 # 将每个格子接到的雨水加起来,遍历完成后.

2021-05-08 16:33:03 405

原创 airflow管理界面无法将任务设置为 on (unpause) 状态

airflow调试通后,在界面上能看到任务,直接测试任务也能正常执行,但是始终没办法将DAG从off变为on,点击成on后再刷新界面,状态又会变为offairflow使用的版本是 1.10.10在网上查了很久,发现可能是flask的版本问题引起的后面打开控制台,修改状态后发现请求直接报的 400 ……,但是页面上居然没有直接的报错信息,让人难受发现这个后问题基本就定位到了, 原来是请求都没有发送到服务端,解决方式目前想到的有两种一种是替换flask版本(这个是在网上找到的): 替换flas.

2021-02-25 10:10:04 267

原创 airflow initdb 报 UnicodeEncodeError 和 ab_permission_view_role doesn‘t exist

使用mysql作为airflow的数据库,在airflow.cfg中设置字符编码为utf-8,在初始化airflow数据库时还是会碰到如下错误:UnicodeEncodeError: 'charmap' codec can't encode characters in position 0-3: character maps to <undefined>这种还是在编码设置问题上,处理需要在airflow.cfg中设置编码 sql_engine_encoding = utf-8 还需要在.

2021-02-20 10:04:27 891

原创 spark读取parquet数据报异常: java.lang.NegativeArraySizeException

背景: 在执行spark任务的时候,中间有多次落盘,将数据以parquet格式写到hdfs。然后再将数据读取出来继续执行。执行到中间有如下报错: [spark] Caused by: org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file hdfs://master1:8020/user/xxx/part-00512-0462dbf5-98b2-41fa-925c-3a.

2021-01-29 17:40:55 2071

原创 spark sql 如何判断数组字段包含某个值

在使用spark sql发现某些字段是数组字段,需要判断该是否包含某些值的写法:spark.sql("select id, array_field from tmp_v where array_contains(array_field, 'hello')").show(200, false)参考:https://spark.apache.org/docs/latest/api/sql/#array...

2021-01-05 14:54:38 5140

原创 spark计算结果按excel模板(多tab)格式输出

场景描述使用spark对数据进行处理,处理完成后,要求按用户给定的excel模板将数据导给用户模板中的部分tab所需数据不是spark计算的,但是这部分tab需要在最后的输出中将tab和列名展示出来模板中的部分列在计算中是没有的,这些列也需要输出,数据留着空白就可以excel的输出要求:每个tab严格按照模板的顺序,数据中的列严格按照模板的顺序,每一行按规定的字段排序实现思路spark的输出对照模板tab,每个tab一个csv文件,写到 hdfs 指定文件目录下将每个tab的列名生

2020-06-04 17:03:28 773

原创 ubuntu中如何让普通用户运行docker的镜像

docker安装成功后,如果不执行 sudo来运行docker,会报如下错误:permission denied while trying to connect to the Docker daemon socket这是普通用户没有权限导致的,每次已sudo运行确实不太方便,要想普通用户能运行,可执行:usermod -aG docker $USER重启下ubuntu就可以了...

2020-02-11 19:16:09 1341

原创 logstash消费kafka过程中对数据的一些常规清洗和处理

logstash通过插件的形式来配置input,filter,output,在消费数据后,如果需要对数据做处理,需要用到filter的很多功能。最近使用logstash传递kafka数据到es时,了解了一些logstash处理数据的方式,以下logstash的config做个简单分享:input { kafka { bootstrap_servers => "...

2019-11-22 17:46:01 1623

原创 docker mac 命令行登录报错处理 : Error saving credentials: error storing credentials - err: exit status 1

比较新版本的docker命令行登录会出现以下错误:Error saving credentials: error storing credentials - err: exit status 1, out: `The user name or passphrase you entered is not correct.`在网上找了很久,总算找个一个能用的:以下为具体操作1. 点开启动...

2019-03-23 10:11:42 14222 7

原创 使用python处理excel

去网上找的处理库,直接上代码了import osimport reimport xlrdimport xlwtdef set_style(name=None, height=220, bold=False): """ 设置表格样式 :param name: :param height: :param bold: :return: ...

2019-03-22 10:31:03 245

原创 亚马逊 ec2 安装 docker

sudo yum update -ysudo yum install -y dockersudo service docker start# 将docker权限赋给 ec2-usersudo usermod -a -G docker ec2-user# 如果执行还不能成功的,再执行这个sudo chmod 666 /var/run/docker.sock参考: http...

2019-03-21 15:01:56 1453

原创 docker container 访问外部宿主机服务

docker 容器的默认网络是采用桥接的形式(和主机在同一个局域网中,但是单独使用一个独立的局域网IP),程序在生产环境中运行时,连接数据库、redis等只需要配置对应的服务地址就可以了。在开发环境中,如果服务在docker中运行,数据库在本机运行,配置数据库连接的时候配置 127.0.0.1 就不好使了。可以用两种方式解决这个问题。一是将宿主机和容器看着是独立的两台机器,在配置地址的...

2019-03-21 14:56:23 9578

原创 xpath解析获取某个节点下所有的文本字符

使用xpath解析某个节点下所有文本(包括该节点的文本和其所有子节点的文本):from lxml import etreeimport requestsurl = 'xxx'resp = requests.get(url)html = resp.textroot = etree.HTML(html)# 获取某个tr节点下面的所有文本数据数据tr_text_all = roo...

2019-03-11 17:24:10 15854 2

原创 尝试使用django存储爬取的文件

从网上直接爬取资源后,如果资源是文件,比如图片、音频等,返回的数据是二进制数组,如果我们要保存,一般都是直接新开一个和资源类型相同的文件,并将得到的二进制数据直接写进文件。如果我们需要让django的ORMModel 来管理我们下载的资源,那么model中需要有FileField这个字段,并且我们需要将要保存的文件和这个字段关联起来。def _upload_to(instance, f...

2019-03-04 10:07:33 367

原创 uwsgi管理django进程简介

中文文档: https://uwsgi-docs-zh.readthedocs.io/zh_CN/latest/tutorials/Django_and_nginx.html安装: 安装python环境和python虚拟环境后,在虚拟环境中通过pip安装: pip install uwsgi编写配置文件:[uwsgi]socket=127.0.0.1:8000ch...

2019-02-28 16:57:41 675

原创 django 插入库表时如何添加many-to-many字段数据

创建对象时,多对多字段不能直接通过下面的方式处理:from .models import Blog, Author, Userauthor = Author.objects.get(id=1)users = User.objects.filter(id__in=(2, 3, 4))# 这样直接写过不了,会报错: Direct assignment to the forward si...

2019-02-15 09:15:06 5511

原创 用 django orm 写 exists 条件过滤

要用django的orm表达sql的exists子查询,是个比较麻烦的事情,需要做两部来完成from django.db.models import Exists, OuterRef# 1. 定义子查询条件relative_comments = Comment.objects.filter( post=OuterRef('pk'), # 注意外键关联方式:post为Comm...

2019-01-14 14:26:27 8238

原创 ModuleNotFoundError: No module named 'xxx'; 'xxx' is not a package

在使用脚本导数据的时候,出现了个这个错: ModuleNotFoundError,项目目录如下project |-- ... |-- load_data |-- __init__.py |-- load_data.py |-- util.py 只有一个...

2019-01-08 19:05:57 17588 8

原创 django 做 migrate 时 表已存在的处理

在开发web的时候,如果是以前已存在的项目,项目下载下来后,为了使用测试库的数据,会直接将整个测试库(如sqlite3)拿到本机来。这种情况下,如果执行的顺序不对,很容易在执行migrate的时候出现数据库已存在的错误: django.db.utils.OperationalError: (1050, "Table 'xxx' already exists")要处理这种情况,如果是数据...

2019-01-04 14:43:16 7902

原创 django 中间件中修改返回数据

在django的middle中可以做一些公共的事情,比如在http头中加入用户认证信息,统一异常处理,统一返回值格式等。在统一返回值格式的时候,是需要修改response的数据的。这里直接修改response的数据还不够,因在views中返回时,已经render了数据,修改response的返回数据时需要重新再render一次。class RewardMiddleware: ...

2018-12-05 15:03:21 2766

原创 python-django 环境简单搭建

要用git的,去网上找个git配置就行:ubuntu下配置 git创建虚拟环境: 安装对应的python版本(如果系统中没有指定版本): https://blog.csdn.net/lzzyok/article/details/77413968 https://www.jianshu.com/p/834a242d15a8 指定p...

2018-10-15 09:31:46 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除