xufwind-CSDN博客

业务背景系统中存在大量的统计业务。统计查询条件基本都是根据时间和多个条件的组合进行分页查询，并返回查询结果统计导出功能导出的是符合条件的所有数据，不仅是当前页面展示的分页数据，所以导出功能需放在服务端完成统计业务较多，统计结果返回数据没有添加对应的视图类，而是直接返回的map数组序列化成的json返回的excel数据，除了字段相关的header，header行之前还有一些特殊说明，直接调用excel的api写excel的头会比较麻烦集成easyexcelpom中添加依赖 &l

2022-03-10 15:57:03 611

原创 spring JPA 处理字段名动态变化的条件查询

业务需求有工厂设备信息表 machine_info ,有字段 id, machine_name, factory_name, machine_code, machine_location 等，现要求页面上需要根据以上的某一个条件过滤出对应的设备并展示.程序实现参考https://stackoverflow.com/questions/47407043/spring-data-jpa-pass-column-name-and-value-as-parametershttps://segmen

2022-02-09 14:12:01 1504

原创 streamsets任务批量管理尝试

使用 streamsets 处理导数据，可以做到在页面拖拉拽创建一个pipeline，就能打通数据通道在需要接入的业务系统很多的情况下，我们就会创建很多的pipeline，用来导数据在大量使用全量导入，做T+1数据的情况下，如何管理 streamsets 各个导数据的pipeline的执行会是个比较重要的问题在此尝试了两种方式来管理 streamsets pipeline 的批量执行方式一: 使用python直接调streamsets API 的方式思路简介将需要按时调用的pipeline.

2022-01-11 15:39:57 891

原创 navicat连oracle测试连接闪退

业务中需要连接很多oracle的业务库，之前使用navicat连接过几个，都没出问题，后面连接一个库的时候发现测试连接时navicat会闪退。后面在网上找，发现是oracle客户端工具可能有问题。于是去oracle官网上下载了对应的客户端，再连接就没问题了具体操作:下载oracle客户端，百度搜 oracle InstantClient download 或使用上面的链接都可以下载后将客户端工具减压，放到比较好管理的地方，我放到了navicat安装目录下启动navicat -> 工具 .

2021-12-22 09:55:58 1511

原创 unable to login from keytab: Decrypt integrity check failed - 记一次手残经历

前两天在CDH上用命令行访问impala，因集群添加了kerberos认证，访问需要先认证。在目录里找了一圈没有找到能成功认证的keytab，然后就自己去网上搜索如何生成keytab，结果keytab没有生成成功，那个节点上impala的principal密码还被改了。正好这个节点上运行了impala的catalog server，于是整个impala集群就启动不了。目前集群又没有运维的支持，只能自己去搞前期查到是认证问题后，就各种百度，bing搜索，看一圈下来，基本没有能当下处理情况的信息。后来去.

2021-10-29 17:36:36 1049

原创大数据清理脚本

大数据计算过程中可能会遗留大量的日志，中间文件，以及过期的计算结果在数据量是很大的情况下,这些数据会占用很多存储资源，甚至可能导致因磁盘满载出现机器停止运行的问题下面是笔者在工作中编写的用于清理这些数据的脚本，目前可清理数据有:本地日志和其它文件hdfs目录hive表hbase表详情见代码: https://github.com/xufwind95/data_cleaner...

2021-08-11 13:47:41 290

原创如何找出流程中的循环依赖

开发过程中，碰到流程性质的业务时，可将一个个流程抽象成一个个的执行对象流程之间会有依赖关系，现在就变成了对象之间的依赖关系对象的依赖关系如果碰到循环依赖的话整个执行就会变成一个死循环如果流程特别多，出现循环依赖的话，人工排查就会特别费事如何在代码中排查循环依赖，并确定哪些地方有循环依赖，直接见代码def get_dependency_lst(): return [ ("A", ["B", "C", "D"]), ("B", ["B", "C", "A"].

2021-07-14 15:26:05 1374

原创 hive 集群内复制数据库

引子工作中碰到几个外部项目使用相同数据库结构和基础数据的数据库为了每个项目的数据独立性可复制数据库出来给每个项目单独操作使用非导出的方式在hive集群内复制数据库创建数据库create database if not exists new_db_name;编写建表语句，表比较多的可以将表名全部拿出来后使用shell或python处理成创建表的文本use new_db_name;create table table_name like old_db_name.table_name;复制

2021-07-13 10:52:55 814

原创 spark参数调优

引子开发大数据的程序时间一长，就会发现和以前开发其它程序的方式有很大的不同。除了要将更多的关注点放在数据上之外，一个很重要的事情是，你开发的程序在测试库运行的好好的，到线上数据量大之后，程序执行就可能会出各种问题，有时狂加资源程序也不能很好的执行。这其中就会涉及到一些spark程序调优方面的内容，网上一翻，会出现一大堆这种方面的东西，有些还是很有用的，能解决工作中的实际问题。这里就将工作中碰到的调优问题和解决方案做分享执行参数调优spark的每一个参数格式及对参数的解释和默认值都能在官网上

2021-06-23 19:36:52 751

原创接雨水算法题实现

一维接雨水算法题实现https://leetcode-cn.com/problems/trapping-rain-water/def trap_rain_water(height): # 思路: 一个格子能不能接到雨水，能接到多少雨水，由其两边最高的"墙"决定 # 从第二个位置遍历每个格子，遍历到倒数第二个，找到每个格子两边最高的墙 # 格子高于等于墙高则无法接住雨水，如果比墙低，则能接住较低的墙减去格子高度的雨水 # 将每个格子接到的雨水加起来，遍历完成后.

2021-05-08 16:33:03 637

原创 airflow管理界面无法将任务设置为 on (unpause) 状态

airflow调试通后，在界面上能看到任务，直接测试任务也能正常执行，但是始终没办法将DAG从off变为on，点击成on后再刷新界面，状态又会变为offairflow使用的版本是 1.10.10在网上查了很久，发现可能是flask的版本问题引起的后面打开控制台，修改状态后发现请求直接报的 400 ……，但是页面上居然没有直接的报错信息，让人难受发现这个后问题基本就定位到了, 原来是请求都没有发送到服务端，解决方式目前想到的有两种一种是替换flask版本(这个是在网上找到的): 替换flas.

2021-02-25 10:10:04 447

原创 airflow initdb 报 UnicodeEncodeError 和 ab_permission_view_role doesn‘t exist

使用mysql作为airflow的数据库，在airflow.cfg中设置字符编码为utf-8,在初始化airflow数据库时还是会碰到如下错误:UnicodeEncodeError: 'charmap' codec can't encode characters in position 0-3: character maps to <undefined>这种还是在编码设置问题上，处理需要在airflow.cfg中设置编码 sql_engine_encoding = utf-8 还需要在.

2021-02-20 10:04:27 1053

原创 spark读取parquet数据报异常: java.lang.NegativeArraySizeException

背景: 在执行spark任务的时候，中间有多次落盘，将数据以parquet格式写到hdfs。然后再将数据读取出来继续执行。执行到中间有如下报错: [spark] Caused by: org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file hdfs://master1:8020/user/xxx/part-00512-0462dbf5-98b2-41fa-925c-3a.

2021-01-29 17:40:55 2480

空空如也

空空如也