自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 资源 (1)
  • 收藏
  • 关注

原创 Datahub元数据管理与治理利器--入门篇

DataHub元数据管理与治理

2025-01-21 09:30:00 1555

原创 数据血缘 | 图数据库,一个绕不开的话题

本篇文章通过剖析数据血缘的挑战,展示了图数据库,尤其是**Neo4j**,如何凭借其高效的图结构模型和强大的查询能力,解决这些难题。文章涵盖了从Neo4j的基本操作到实际案例中的应用,以及如何利用Cypher查询语言直观管理数据血缘,最后分享了在实际开发中的最佳实践

2024-12-18 09:15:00 1296 1

原创 数据血缘 | 探索SQLGlot的实用性与解析技巧

SQLGlot 可以让你对代码库中的 SQL 实现程序化理解。它能够创建测试和检查,以深入分析你的 SQL,并在源头识别错误或反模式。SQLGlot 提供了标准化不同数据仓库中 SQL 结构的 API,使它成为开发者的多用途工具。目前已经支持24种不同的sql语法了,就凭这个,也太值得用了。这是它的git地址,目前已经6.8K stars。

2024-12-12 14:48:31 1572

原创 DataX实战|使用Python 构建简易的DataX数据血缘工具(二)

导读:在这篇文章中,我讨论了如何使用 conda 管理 Python 项目环境,以避免依赖冲突,然后基于 Flask 创建一个简易的 DataX 数据血缘工具。在 requirements.txt 中指定依赖,创建一个简单的 Flask 应用,以 /query 接口通过解析 DataX 的 JSON 和 SQL 配置来获取表的任务信息。核心解析逻辑放在 DataxParser 类中。开发中探讨了提高查询效率的可能性,比如提前解析并存储数据。

2024-12-02 10:00:03 988

原创 DataX实战|使用Python 构建简易的DataX数据血缘工具(一)

如何使用 Python 构建简易的 DataX 数据血缘工具,以便解决 DataXWeb 在查询表上下游关系时的不足。

2024-11-29 10:18:54 1181

原创 帆软--最简单的方式做动态排序

影响报表最小的情况想做动态排序

2024-11-25 10:00:32 1055

原创 doris udf -- 避免使用递归CTE

在部门表里有 部门id (dept_id) 和 父部门id (parent_id) ,父部门id同时也是部门id。现在要查部门id下所有的子部门id,但是不知道部门层级,部门关系可能也会调整。

2024-11-14 16:06:02 787 1

原创 mysql到doris的DDL整库转换工具

适用于常规的mysql-ddl到doris-ddl的整库转换,附全部代码

2024-11-01 10:32:57 760

原创 dolphinscheduler接口教程

DS的接口如何找,授人以鱼不如授人以渔。

2024-10-25 14:16:36 683 2

原创 使用DolphinScheduler接口实现批量导入工作流并上线

dolphinschedulerg工作流批量导入与上线。

2024-10-25 11:17:43 540

原创 python工具--mysql2doris的datax json生成工具

提供DDL生成datax的json

2024-08-16 14:37:14 529

原创 飞书打卡 快捷指令

飞书打卡快捷指令

2024-07-31 14:02:32 2602

原创 linux初始化-jdk maven docker一文搞定

一问搞定linux初始化,安装jdk maven docker docker-compose

2023-08-10 17:39:28 304

原创 java程序打包成exe在无java环境执行

java程序打包成exe在无java环境执行

2023-08-06 15:30:44 1030

原创 DataEase二开记录--踩坑和详细步骤(四)改admin账号密码

考虑到原来默认admin账号的密码过于简单,需要修改,但是DataEase已经使用了,不能影响原来的数据,因此不能更换镜像。相关文章,有需要的话 可以看看前面几篇DataEase二开记录–踩坑和详细步骤(一)DataEase二开记录–踩坑和详细步骤(二)DataEase二开记录–踩坑和详细步骤(三)增加权限功能。

2023-05-15 14:11:07 2990 2

原创 flinkSQL Table转DataStream

业务中sql可能不完全满足使用,需要转换成DataStream 更灵活一些,所以需要互相转换,发挥各自的优势。

2023-04-24 11:11:12 1147

原创 FlinkSQL kafka完整案例 可直接复制使用

完整案例,可以直接使用。flinksql 消费kafka整体来说是十分简单好用的,使用时门口较低,实时性又高

2023-04-23 17:12:05 3027 2

原创 DataEase二开记录--踩坑和详细步骤(三)增加权限功能

这篇文章是关于dataease的权限管理的,开源版本是没有权限管理的,任何账号看到的东西都一样,显然,这不能满足正常的使用。

2023-03-24 16:57:32 5245 17

原创 DataEase二开记录--踩坑和详细步骤(二)

最近在看DataEase,发现挺好用的,推荐使用。用的过程中萌生了二开的想法,于是自己玩了玩,并做了一些记录。

2023-03-14 11:17:13 5050

原创 DataEase二开记录--踩坑和详细步骤(一)

最近在看DataEase,发现挺好用的,推荐使用。用的过程中萌生了二开的想法,于是自己玩了玩,并做了一些记录。

2023-03-14 10:25:06 10521 4

原创 flink cdc MySQL2Doris 案例分享 解决分库多表同步

使用flink cdc,完成mysql 多库 多表同时同步到doris中

2022-11-18 14:28:53 3430 2

原创 flink doris batch案例

flinkSQL批处理,查询doris 结果还写入doris,使用flink-doris-connector。

2022-11-16 17:24:15 2876

原创 flink on yarn常见问题及解决方法汇总

持续更新flink on yarn在实际使用中的问题和解决方式,与君共勉

2022-10-26 10:01:16 4940 1

原创 使用Kettle多表数据增量导入详细文档

一文搞定多表或单表增量同步到一张表中,详细文档,跟着操作就行

2022-09-28 18:04:52 1294

原创 Python使用pyinstaller打包踩坑合集

pyinstaller打包踩坑汇总

2022-07-13 13:44:22 438

原创 Flink侧输出流及案例

一文了解flink侧输出流的简单应用,以及在实际生产中的使用案例

2022-07-04 16:30:31 722

原创 flink连接redis工具类-简单好用

简单易容的flink redis 工具

2022-05-07 20:13:19 3150 1

原创 flinksql source doris案例

flinksql doris source 一个案例,快速上手

2022-05-07 09:59:10 1519

原创 Flink sink doris案例

flink sink doris 简单案例,一文看懂,立刻上手

2022-05-06 17:09:37 5496

原创 比properties更好用的读配置文件的方式

用properties.load()时总是要求改level为6,很不舒服学习了用别的方式读配置文件案例如下:一、需要的依赖有: <!--log4j日志核心包--> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2.16

2022-04-20 15:25:37 623

原创 springboot快速写API,直接传sql作为参数

很久没写过接口了,很多都忘记了,找了找资料都是比较常见的方式,没有直接用sql做参数的。因为业务用数据可能会改,所以写成直接传sql的方式,后期省去了改的活,一劳永逸一、新建工程以上内容也可以手动在pom里添加二、配置用到的pom如下 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-s

2022-03-15 11:02:17 2350

原创 使用stream load向doris写数据的案例

使用stream load向doris写数据的案例代码涉及到的依赖如下 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version> </dependency> <

2022-03-01 09:54:56 1639

原创 记录ThreadPoolExecutor主线程等待子线程问题

在使用ThreadPoolExecutor启动线程池遇到一个问题:无法让主线程等待子线程完成后再继续执行。网上找了很多方法如:while循环进行轮询Thread类的join方法synchronized锁CountDownLatchFutureBlockingQueueCyclicBarrierLockSupport最后发现都不是适用于ThreadPoolExecutor。研究了很久才解决。案例如下package com.siger;import com.google.commo

2022-02-16 17:27:45 3085 1

原创 阿里巴巴提示:手动创建线程效果更好

原来创建方式ExecutorService executorService = Executors.newFixedThreadPool(threadNum);阿里的插件提示:手动创建线程效果好我看了一下解释:说是容易造成OOM,巧了,我之前就是出现这个问题。于是我使用了阿里推荐的方式穿件线程 ThreadFactory threadFactory = new ThreadFactoryBuilder().setNameFormat("thread-call-runner-%d").build(

2022-02-15 17:49:06 1740

原创 执行shell时出现No such file or directory问题

一、对于在服务器上新上传的start.sh脚本,启动时容易出现,-bash:./start.sh:/bin/sh^M: bad interpreter:No such file or directory一般情况是因为该sh脚本的格式不正确,如果这个脚本在你本地修改过(使用txt、notepad++打开修改),可能在保存的时候会默认把文件的格式保存为: doc格式(windows系统)、mac(苹果系统),那么在上传到系统后,unix系统是不支持doc(mac)格式的,那么就需要把doc(mac)格式的文件

2022-02-10 20:07:12 10575 1

原创 sqoop连接MySQL失败解决案例

在sqoop测试的时候遇到了连接不上的问题

2022-01-17 17:06:03 5726

原创 Flink案例——kafka、MySQL source

Flink案例——kafka、MySQL source一、kafka sourceflink和kafka的连接是十分友好的,毕竟是做流式处理的吧。首先依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</artifactId> <version>1.10.1</version>&

2022-01-14 15:27:24 1849

原创 spark小案例——sparkstreaming消费Kafka

使用sparkstreaming消费Kafka的数据,实现word count依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.12</artifactId> <version>3.0.0</version></dependency><depe

2021-10-12 12:23:29 1465

原创 spark小案例——RDD,sparkSQL

分别使用RDD和SparkSQL两种方式解决相同的数据分析问题;项目数据项目需求使用RDD和SQL两种方式对数据清洗清洗需求如下:统计每个店铺分别有多少商品统计每个店铺的总销售额统计每个店铺销售额最高的前三商品,输出内容包括:店铺名,商品名和销售额其中销售额为0的商品不进行统计计算,例如:如果某个店铺销售为 0则不进行统计 。涉及到的pom依赖 <properties> <scala.version>2.12.10</scala.versio

2021-10-10 14:09:00 1529

原创 spark小案例——RDD,broadcast

RDD小案例object RDD01 { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD01") val sc: SparkContext = new SparkContext(sparkConf) //从集合中创建RDD,spark提供了两个方法,parallelize和makeRD

2021-10-10 10:40:08 907

python工具-mysql2doris的datax json生成工具

python工具-mysql2doris的datax json生成工具

2024-08-16

springboot实现动态调度任务

只需要访问接口就可以更改调度评率,实现动态调度任务,简单易用

2022-12-14

flink-sql-connector-mysql-cdc-2.2.0.jar

flink-sql-connector-mysql-cdc-2.2.0 避免出现 guava 依赖不存在的问题

2022-11-18

mysql2hbase.7z

sqoop已经停止更新,对高版本的hbase已经不支持了,所以借助java来完成数据迁移。 资源包括详细的使用方式说明,以及可以直接拖到linux使用的jar包。

2021-07-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除