自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不才伟才的博客

个人技术知识库 | 大数据 | 数据仓库 | 数据治理 | OLAP | 流批一体 | 数据湖

  • 博客(95)
  • 资源 (4)
  • 收藏
  • 关注

原创 Fink CDC数据同步(六)数据入湖Hudi

Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。当开启change log mode,保留的最大commit数量。上面的查询方式是非流式查询,流式查询会生成一个flink作业,并且实时显示数据源变更的数据。将MySql映射表的数据插入hudi表,此时会生成一个flink任务。此时,执行select 语句就会生成一个flink 作业。,如果想消费所有数据,设置值为earliest。

2024-02-04 12:41:48 1407

原创 Fink CDC数据同步(五)Kafka数据同步Hive

通过flink sql client 建Kafka topic的映射表。如果没有切换hive方言建hive表会报错。

2024-02-04 12:26:44 913

原创 Fink CDC数据同步(四)Mysql数据同步到Kafka

这里指定的Kafka topic会自动创建,也可以预先自行创建。将下列依赖包放在flink/lib。创建upsert-kafka 表。创建MySQL映射表。

2024-02-04 12:24:27 1601 4

原创 Fink CDC数据同步(三)Flink集成Hive

Flink利用Hive的MetaStore作为持久化的Catalog,我们可通过HiveCatalog将不同会话中的 Flink元数据存储到Hive Metastore 中。Flink打通了与Hive的集成,如同使用SparkSQL或者Impala操作Hive中的数据一样,我们可以使用Flink直接读写Hive中的表。

2024-02-03 22:38:29 946

原创 Fink CDC数据同步(二)MySQL数据同步

和旧的快照读相比有以下优点:1. 并行读取 2. 支持checkpoint 3. 不需要锁表;当需要并行读取时,server-id需要设置数值范围,如5400-5408。当开启scan.incremental.snapshot.enabled时,建议指定server-id;connector 连接 MySQL 服务的最长等待超时时间。connector 创建 MySQL 连接的重试次数。MySql server 的主机名或者 IP 地址。连接 MySQL 数据库的用户名。连接 MySQL 数据库的密码。

2024-02-03 22:28:49 1198

原创 Fink CDC数据同步(一)环境部署

Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Flink CDC 是 Apache Flink 的一组源连接器,基于数据库日志的 Change Data Caputre 技术,实现了全量和增量的一体化读取能力,并借助 Flink 优秀的管道能力和丰富的上下游生态,支持捕获多种数据库的变更,并将这些变更实时同步到下游存储。

2024-02-03 22:21:57 2042

原创 ClickHouse安装部署【非常详细】

本文非常详细地记录了clickhouse安装部署的过程,仅供参考~

2022-01-07 18:18:14 44362 10

原创 数据质量之评估维度及检测项

数据质量之评估维度及检测项数据质量直接影响数据的价值,这里主要介绍一些业界主流的六大评估维度,分别是完整性,唯一性(独特性),一致性,准确性,有效性,时效性。以及我们在设计DQC的时候可以用什么检查规则取检测。一、完整性数据的每一项都应被记录,这样数据才完整。我们可以通过对字段是否为空或者是否为空字符串进行检测数据的完整性-- 空值检测select count(1) as cnt from ${db}.${table} where (${filter}) and (${field} is nul

2021-09-29 20:14:21 3218

原创 标签画像体系应用实践

标签画像体系应用是一种利用用户标签数据实现个性化推荐和精准营销的方法。通过整合和清洗数据、画像建模和智能推荐系统开发等步骤,可以解决数据碎片化、缺乏精准推荐等问题。通过案例分析可以看出,标签画像体系应用能够帮助企业更好地了解用户需求,提供个性化的服务,提升竞争力和用户满意度。

2024-03-14 11:34:57 937

原创 【最全最经典SQL题】五 产生连续数值

构造两个临时表 一个4一个6,通过笛卡尔积可以构造24行记录扩展:生产过去2年的年月字段FROM () xcxc。

2024-03-12 15:47:41 710

原创 【最全最经典SQL题】四 窗口大小控制

从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】四 窗口大小控制【最全最经典SQL题】五 数据合并与拆分【最全最经典SQL题】六 数据扩充与收缩【最全最经典SQL题】七 容器【最全最经典SQL题】八 时间序列【最全最经典SQL题】九 非等值连接更新中........

2024-03-12 14:58:26 382

原创 【最全最经典SQL题】三 累计求值

从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制【最全最经典SQL题】五 数据合并与拆分【最全最经典SQL题】六 数据扩充与收缩【最全最经典SQL题】七 容器【最全最经典SQL题】八 时间序列【最全最经典SQL题】九 非等值连接更新中........

2024-03-12 09:56:24 404

原创 【最全最经典SQL题】二 排名取它值

从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】二 排名取它值【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制更新中........本系列将提供建表语句、数据、解题SQL代码,大家动动小手指就能看到效果以便理解,为了方便大部分同学实操,默认采用MySQL的SQL,如Hive有区别的会注明一下。

2024-03-11 14:32:07 419

原创 【最全最经典SQL题】一 行列转换

从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。本系列不定期更新,内容如下:【最全最经典SQL题】一 行列转换【最全最经典SQL题】二 排名取它值【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制更新中........

2024-03-11 13:22:14 532

原创 dolphinscheduler海豚调度(五)seatunnel案例

seatunnel作为新一代流行的数据集成工具,其功能非常强大且简单易用,今天演示一下如何通过dolphinscheduler创建并运行seatunnel任务本次dolphinscheduler和seatunnel均部署在同一机器上的单机版本。

2024-03-06 18:51:49 1027

原创 Hive SQL 开发指南(三)优化及常见异常

使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。在此给出较为通用的步骤:1、采样log表,哪些user_id比较倾斜,得到一个结果表tmp1。由于对计算框架来说,所有的数据过来,他都是不知道数据分布情况的,所以采样是并不可少的。2、数据的分布符合社会学统计规则,贫富不均。倾斜的key不会太多,就像一个社会的富人不多,奇特的人不多一样。

2024-03-05 15:06:43 1678 1

原创 MySQL 新增用户及权限分配

2024-03-05 12:08:08 647

原创 Hive SQL 开发指南(二)使用(DDL、DML,DQL)

建表注意事项CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)LIKE 允许用户复制现有的表结构,但是不复制数据COMMENT可以为表与字段增加描述ROW FORMAT用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。

2024-03-01 14:18:50 1376

原创 Hive SQL 开发指南(一)数据类型及函数

在大数据领域,Hive SQL 是一种常用的查询语言,用于在 Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能,制定一套规范化的 Hive SQL 开发规范至关重要。本文将介绍 Hive SQL 的基础知识,并提供一些规范化的开发指南,帮助您高效地编写 Hive SQL 查询。本系列分为Hive SQL 开发指南(一)数据类型及函数Hive SQL 开发指南(二)使用(DDL、DML,DQL)Hive SQL 开发指南(三)优化及常见异常。

2024-03-01 10:54:14 1279

转载 当我们聊数据质量的时候,我们在聊些什么?

随着大数据行业的深入发展,数据质量越来越成为一个绕不开的话题,那当大家在聊数据质量的时候,通常会聊什么呢?从什么是数据质量开始。

2024-02-29 10:18:56 44

原创 数仓模型设计方法论

规范定义主要定义派生指标体系。包括原子指标、修饰词修饰词时间周期和派生指标。

2024-02-28 14:49:37 1318

原创 dolphinscheduler海豚调度(四)钉钉告警

在之前的博文中,我们已经介绍了DolphinScheduler海豚调度的基本概念和工作流程,以及Shell任务和SQL任务的实践。今天,让我们来学习DolphinScheduler中的另一个重要功能:钉钉告警。

2024-02-28 10:19:13 687

原创 dolphinscheduler海豚调度(三)SQL任务

在之前的博文中,我们已经介绍了DolphinScheduler海豚调度的基本概念和模块,安装部署和元数据切换,以及Shell任务的实践。今天,让我们来深入探讨DolphinScheduler中另一种常见的任务类型:SQL任务。SQL任务是DolphinScheduler中非常重要的一种任务类型,它允许用户在调度系统中运行SQL语句,通常用于数据处理、数据分析等场景。下面我分别以为MySQL和Hive为例,详细介绍如何在DolphinScheduler中创建和配置SQL任务。

2024-02-27 17:04:58 942

原创 dolphinscheduler海豚调度(二)快速运行第一个项目

在点击运行之后,在启动前请先设置参数的界面勾选是否是补数,并选中对应的补数方式和日期即可。注意:上线状态的工作流不能编辑,如果需要编辑则需要将该工作流下线。好了,第一个的dolphinScheduler 任务就完成了。进入对应的工作流,选中你要单独运行的任务,右键点击运行即可。第二步,进入刚才创建好的项目,工作流定义,创建工作流。可以在任务实例中查看刚才执行的任务运行状态和日志。此外,如果想运行单一任务该如果操作?确定,保存,这样一个任务就完成了。在工作流定义中也可以设置定时。第一步,项目管理,创建项目。

2024-02-27 16:26:46 465

转载 谈谈数据基础设施

刘烈宏也呼吁,希望高校、科研院所、产业链各界,在数据创新、融合、变革的时代浪潮下,共同推动数据基础设施概念理论、架构体系、核心技术、标准规范不断演进迭代,携手并进,推动数据基础设施建设,完善数据基础制度,激活数据要素价值,谱写数字经济发展新篇章,共同为我国数据事业发展贡献力量。,刘烈宏认为,数据基础设施利用云计算、边缘计算、分布式计算、大数据处理、AI分析、绿色低碳等技术,为参与方提供高效便捷、安全可靠的数据要素存储、计算、分析能力,有效推动数据处理环节实现高效率、低成本、高智能。

2024-02-27 15:28:37 25

原创 数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC

SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处理过程中的数据同步问题,支持实时数据处理和批量数据处理,提供了丰富的数据源连接器,包括Kafka、HDFS、JDBC等。DataX是阿里巴巴开源的一个异构数据源离线同步工具,主要用于在各种异构数据源之间高效的进行数据同步,支持包括MySQL、Oracle、HDFS、Hive等在内的多种数据源。Sqoop是一款开源的工具,用于在Hadoop和关系型数据库之间高效地传输数据。

2024-02-07 22:49:31 3859

原创 Oracle11g安装配置详细教程

Oracle11g安装配置详细教程# #Oracle#Oracle Database 11g是一款广泛使用的关系型数据库管理系统,它为企业级的应用提供了强大的数据管理功能。本文将详细介绍如何在Windows环境下安装和配置Oracle 11g。

2024-02-07 14:39:06 1135

原创 dolphinscheduler海豚调度(一)简介&快速体验

Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。

2024-02-06 23:59:13 1583

原创 seatunnel数据集成(四)转换器使用

seatunnel除了丰富的连接器类型,其转换器也能够让数据转换更加简单,包括Copy,Filter,FieldSelector,FielMapper,DATa Filter,TypeConverter,Replace,Split,FilterRowKind,SQL,SQL Functions等。

2024-02-06 00:23:44 1581

原创 seatunnel数据集成(三)多表同步

seatunnel除了单表之间的数据同步之外,也支持单表同步到多表,多表同步到单表,以及多表同步到多表

2024-02-05 23:59:01 1443

原创 seatunnel数据集成(二)数据同步

如果用的是Spark/Flink引擎,需要Spark/Flink已经集成好了Hive。放到 $SEATUNNEL_HOME/lib/ 目录下。如果用SeaTunnel Zeta引擎,需要将。指定作业模式为:STREAMING。需求:根据创建时间,每天增量抽取。

2024-02-05 23:54:05 1536

原创 seatunnel数据集成(一)简介与安装

在Apache的仓库下载相应的connector,下载时每个jar包在不同的路径下面,放到/SeaTunnel-2.3.1/connectors/SeaTunnel目录下。--check 检查config语法是否合法。--variable 应用配置里的变量赋值。下载完毕之后上传到服务器上面并解压。配置安装SeaTunnel的插件。--config 应用配置的路径。下载对应的connector。安装SeaTunnel。

2024-02-05 23:38:53 951

原创 解决datart报错:Invalid database configuration. Datart is running in demo mode

再次启动,就不会报无效数据库配置了,在预先建好的datart数据库中,随着程序的启动而自动建表。原因是缺少一个变量 config。

2023-09-28 17:47:43 2423

原创 Flink+Flink CDC版本升级的依赖问题总结

flink 1.16 + flink-connector-mysql-cdc2.3 的依赖冲突问题总结。

2023-09-05 17:05:29 3766

原创 金融行业数据模型

金融行业经典数据模型

2023-03-01 18:39:12 5721 1

原创 docker常用命令大全

docker常用命令

2022-11-03 16:37:05 222

转载 JuiceFS 环境搭建与挂载

JuiceFS官方文档是一款面向云原生设计的高性能共享文件系统,在 Apache 2.0 开源协议下发布。提供完备的兼容性,可将几乎所有对象存储接入本地作为海量本地磁盘使用,亦可同时在跨平台、跨地区的不同主机上挂载读写。JuiceFS 采用「数据」与「元数据」分离存储的架构,从而实现文件系统的分布式设计。使用 JuiceFS 存储数据,数据本身会被持久化在(例如,Amazon S3),相对应的元数据可以按需持久化在 Redis、MySQL、TiKV、SQLite 等多种中。

2022-10-12 18:12:52 1462

原创 ClickHouse物化视图使用总结

1、clickhouse物化视图是一种空间换时间的预聚合方式,可以解决表索引问题,我们可以用物化视图创建另外一种物理序,来满足某些条件下的查询问题。2、物化视图因为是写入触发器,所以as select只对每批次的insert data有效果,所以即使是where条件也是对这批写入数据起效果。4、多表join生成物化视图,左表插入数据时才更新。3、物化视图只有在原表insert的时候才会触发。5、源表数据的改变不会影响物化视图。

2022-10-10 12:11:55 1273

原创 postgresql: set REPLICA IDENTITY using ALTER TABLE

postgresql删除表数据或者更新表数据报错,副本标识设置

2022-09-15 16:59:40 1970

原创 SQL解析嵌套json数组,直接看例子

SQL解析嵌套json数组

2022-06-27 20:26:49 5891 1

DDD领域驱动设计day03.pdf

DDD 领域建模

2021-10-09

DDD领域驱动设计day02.pdf

DDD 领域建模

2021-10-09

DDD领域驱动设计day01.pdf

DDD领域建模

2021-10-09

构建企业级数仓-Hadoop可行性分析报告.docx

本文档是基于传统数仓转型到大数据平台(Hadoop)的分析报告,主要分为引言,可行性研究前提,对现有数据仓库的分析,Hadoop可行性分析,数据同步,数据处理与计算,可选方案,社会因素方面可行性等内容

2020-04-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除