- 博客(72)
- 资源 (1)
- 收藏
- 关注
原创 数据血缘 | 图数据库,一个绕不开的话题
本篇文章通过剖析数据血缘的挑战,展示了图数据库,尤其是**Neo4j**,如何凭借其高效的图结构模型和强大的查询能力,解决这些难题。文章涵盖了从Neo4j的基本操作到实际案例中的应用,以及如何利用Cypher查询语言直观管理数据血缘,最后分享了在实际开发中的最佳实践
2024-12-18 09:15:00
1296
1
原创 数据血缘 | 探索SQLGlot的实用性与解析技巧
SQLGlot 可以让你对代码库中的 SQL 实现程序化理解。它能够创建测试和检查,以深入分析你的 SQL,并在源头识别错误或反模式。SQLGlot 提供了标准化不同数据仓库中 SQL 结构的 API,使它成为开发者的多用途工具。目前已经支持24种不同的sql语法了,就凭这个,也太值得用了。这是它的git地址,目前已经6.8K stars。
2024-12-12 14:48:31
1572
原创 DataX实战|使用Python 构建简易的DataX数据血缘工具(二)
导读:在这篇文章中,我讨论了如何使用 conda 管理 Python 项目环境,以避免依赖冲突,然后基于 Flask 创建一个简易的 DataX 数据血缘工具。在 requirements.txt 中指定依赖,创建一个简单的 Flask 应用,以 /query 接口通过解析 DataX 的 JSON 和 SQL 配置来获取表的任务信息。核心解析逻辑放在 DataxParser 类中。开发中探讨了提高查询效率的可能性,比如提前解析并存储数据。
2024-12-02 10:00:03
988
原创 DataX实战|使用Python 构建简易的DataX数据血缘工具(一)
如何使用 Python 构建简易的 DataX 数据血缘工具,以便解决 DataXWeb 在查询表上下游关系时的不足。
2024-11-29 10:18:54
1181
原创 doris udf -- 避免使用递归CTE
在部门表里有 部门id (dept_id) 和 父部门id (parent_id) ,父部门id同时也是部门id。现在要查部门id下所有的子部门id,但是不知道部门层级,部门关系可能也会调整。
2024-11-14 16:06:02
787
1
原创 linux初始化-jdk maven docker一文搞定
一问搞定linux初始化,安装jdk maven docker docker-compose
2023-08-10 17:39:28
304
原创 DataEase二开记录--踩坑和详细步骤(四)改admin账号密码
考虑到原来默认admin账号的密码过于简单,需要修改,但是DataEase已经使用了,不能影响原来的数据,因此不能更换镜像。相关文章,有需要的话 可以看看前面几篇DataEase二开记录–踩坑和详细步骤(一)DataEase二开记录–踩坑和详细步骤(二)DataEase二开记录–踩坑和详细步骤(三)增加权限功能。
2023-05-15 14:11:07
2990
2
原创 flinkSQL Table转DataStream
业务中sql可能不完全满足使用,需要转换成DataStream 更灵活一些,所以需要互相转换,发挥各自的优势。
2023-04-24 11:11:12
1147
原创 FlinkSQL kafka完整案例 可直接复制使用
完整案例,可以直接使用。flinksql 消费kafka整体来说是十分简单好用的,使用时门口较低,实时性又高
2023-04-23 17:12:05
3027
2
原创 DataEase二开记录--踩坑和详细步骤(三)增加权限功能
这篇文章是关于dataease的权限管理的,开源版本是没有权限管理的,任何账号看到的东西都一样,显然,这不能满足正常的使用。
2023-03-24 16:57:32
5245
17
原创 DataEase二开记录--踩坑和详细步骤(二)
最近在看DataEase,发现挺好用的,推荐使用。用的过程中萌生了二开的想法,于是自己玩了玩,并做了一些记录。
2023-03-14 11:17:13
5050
原创 DataEase二开记录--踩坑和详细步骤(一)
最近在看DataEase,发现挺好用的,推荐使用。用的过程中萌生了二开的想法,于是自己玩了玩,并做了一些记录。
2023-03-14 10:25:06
10521
4
原创 flink cdc MySQL2Doris 案例分享 解决分库多表同步
使用flink cdc,完成mysql 多库 多表同时同步到doris中
2022-11-18 14:28:53
3430
2
原创 flink doris batch案例
flinkSQL批处理,查询doris 结果还写入doris,使用flink-doris-connector。
2022-11-16 17:24:15
2876
原创 比properties更好用的读配置文件的方式
用properties.load()时总是要求改level为6,很不舒服学习了用别的方式读配置文件案例如下:一、需要的依赖有: <!--log4j日志核心包--> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2.16
2022-04-20 15:25:37
623
原创 springboot快速写API,直接传sql作为参数
很久没写过接口了,很多都忘记了,找了找资料都是比较常见的方式,没有直接用sql做参数的。因为业务用数据可能会改,所以写成直接传sql的方式,后期省去了改的活,一劳永逸一、新建工程以上内容也可以手动在pom里添加二、配置用到的pom如下 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-s
2022-03-15 11:02:17
2350
原创 使用stream load向doris写数据的案例
使用stream load向doris写数据的案例代码涉及到的依赖如下 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version> </dependency> <
2022-03-01 09:54:56
1639
原创 记录ThreadPoolExecutor主线程等待子线程问题
在使用ThreadPoolExecutor启动线程池遇到一个问题:无法让主线程等待子线程完成后再继续执行。网上找了很多方法如:while循环进行轮询Thread类的join方法synchronized锁CountDownLatchFutureBlockingQueueCyclicBarrierLockSupport最后发现都不是适用于ThreadPoolExecutor。研究了很久才解决。案例如下package com.siger;import com.google.commo
2022-02-16 17:27:45
3085
1
原创 阿里巴巴提示:手动创建线程效果更好
原来创建方式ExecutorService executorService = Executors.newFixedThreadPool(threadNum);阿里的插件提示:手动创建线程效果好我看了一下解释:说是容易造成OOM,巧了,我之前就是出现这个问题。于是我使用了阿里推荐的方式穿件线程 ThreadFactory threadFactory = new ThreadFactoryBuilder().setNameFormat("thread-call-runner-%d").build(
2022-02-15 17:49:06
1740
原创 执行shell时出现No such file or directory问题
一、对于在服务器上新上传的start.sh脚本,启动时容易出现,-bash:./start.sh:/bin/sh^M: bad interpreter:No such file or directory一般情况是因为该sh脚本的格式不正确,如果这个脚本在你本地修改过(使用txt、notepad++打开修改),可能在保存的时候会默认把文件的格式保存为: doc格式(windows系统)、mac(苹果系统),那么在上传到系统后,unix系统是不支持doc(mac)格式的,那么就需要把doc(mac)格式的文件
2022-02-10 20:07:12
10575
1
原创 Flink案例——kafka、MySQL source
Flink案例——kafka、MySQL source一、kafka sourceflink和kafka的连接是十分友好的,毕竟是做流式处理的吧。首先依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.12</artifactId> <version>1.10.1</version>&
2022-01-14 15:27:24
1849
原创 spark小案例——sparkstreaming消费Kafka
使用sparkstreaming消费Kafka的数据,实现word count依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.12</artifactId> <version>3.0.0</version></dependency><depe
2021-10-12 12:23:29
1465
原创 spark小案例——RDD,sparkSQL
分别使用RDD和SparkSQL两种方式解决相同的数据分析问题;项目数据项目需求使用RDD和SQL两种方式对数据清洗清洗需求如下:统计每个店铺分别有多少商品统计每个店铺的总销售额统计每个店铺销售额最高的前三商品,输出内容包括:店铺名,商品名和销售额其中销售额为0的商品不进行统计计算,例如:如果某个店铺销售为 0则不进行统计 。涉及到的pom依赖 <properties> <scala.version>2.12.10</scala.versio
2021-10-10 14:09:00
1529
原创 spark小案例——RDD,broadcast
RDD小案例object RDD01 { def main(args: Array[String]): Unit = { val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD01") val sc: SparkContext = new SparkContext(sparkConf) //从集合中创建RDD,spark提供了两个方法,parallelize和makeRD
2021-10-10 10:40:08
907
flink-sql-connector-mysql-cdc-2.2.0.jar
2022-11-18
mysql2hbase.7z
2021-07-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅