大数据_苡~-CSDN博客

原创 Fink CDC数据同步（六）数据入湖Hudi

Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。当开启change log mode，保留的最大commit数量。上面的查询方式是非流式查询，流式查询会生成一个flink作业，并且实时显示数据源变更的数据。将MySql映射表的数据插入hudi表，此时会生成一个flink任务。此时，执行select 语句就会生成一个flink 作业。，如果想消费所有数据，设置值为earliest。

2024-02-04 12:41:48 1407

原创 Fink CDC数据同步（五）Kafka数据同步Hive

通过flink sql client 建Kafka topic的映射表。如果没有切换hive方言建hive表会报错。

2024-02-04 12:26:44 913

原创 Fink CDC数据同步（四）Mysql数据同步到Kafka

这里指定的Kafka topic会自动创建，也可以预先自行创建。将下列依赖包放在flink/lib。创建upsert-kafka 表。创建MySQL映射表。

2024-02-04 12:24:27 1601 4

原创 Fink CDC数据同步（三）Flink集成Hive

Flink利用Hive的MetaStore作为持久化的Catalog，我们可通过HiveCatalog将不同会话中的 Flink元数据存储到Hive Metastore 中。Flink打通了与Hive的集成，如同使用SparkSQL或者Impala操作Hive中的数据一样，我们可以使用Flink直接读写Hive中的表。

2024-02-03 22:38:29 946

原创 Fink CDC数据同步（二）MySQL数据同步

和旧的快照读相比有以下优点：1. 并行读取 2. 支持checkpoint 3. 不需要锁表；当需要并行读取时，server-id需要设置数值范围，如5400-5408。当开启scan.incremental.snapshot.enabled时，建议指定server-id;connector 连接 MySQL 服务的最长等待超时时间。connector 创建 MySQL 连接的重试次数。MySql server 的主机名或者 IP 地址。连接 MySQL 数据库的用户名。连接 MySQL 数据库的密码。

2024-02-03 22:28:49 1198

原创 Fink CDC数据同步（一）环境部署

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。Flink CDC 是 Apache Flink 的一组源连接器，基于数据库日志的 Change Data Caputre 技术，实现了全量和增量的一体化读取能力，并借助 Flink 优秀的管道能力和丰富的上下游生态，支持捕获多种数据库的变更，并将这些变更实时同步到下游存储。

2024-02-03 22:21:57 2042

原创 ClickHouse安装部署【非常详细】

本文非常详细地记录了clickhouse安装部署的过程，仅供参考~

2022-01-07 18:18:14 44362 10

原创数据质量之评估维度及检测项

数据质量之评估维度及检测项数据质量直接影响数据的价值，这里主要介绍一些业界主流的六大评估维度，分别是完整性，唯一性（独特性），一致性，准确性，有效性，时效性。以及我们在设计DQC的时候可以用什么检查规则取检测。一、完整性数据的每一项都应被记录，这样数据才完整。我们可以通过对字段是否为空或者是否为空字符串进行检测数据的完整性-- 空值检测select count(1) as cnt from ${db}.${table} where (${filter}) and (${field} is nul

2021-09-29 20:14:21 3218

原创标签画像体系应用实践

标签画像体系应用是一种利用用户标签数据实现个性化推荐和精准营销的方法。通过整合和清洗数据、画像建模和智能推荐系统开发等步骤，可以解决数据碎片化、缺乏精准推荐等问题。通过案例分析可以看出，标签画像体系应用能够帮助企业更好地了解用户需求，提供个性化的服务，提升竞争力和用户满意度。

2024-03-14 11:34:57 937

原创【最全最经典SQL题】五产生连续数值

构造两个临时表一个4一个6，通过笛卡尔积可以构造24行记录扩展：生产过去2年的年月字段FROM () xcxc。

2024-03-12 15:47:41 710

原创【最全最经典SQL题】四窗口大小控制

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】四窗口大小控制【最全最经典SQL题】五数据合并与拆分【最全最经典SQL题】六数据扩充与收缩【最全最经典SQL题】七容器【最全最经典SQL题】八时间序列【最全最经典SQL题】九非等值连接更新中........

2024-03-12 14:58:26 382

原创【最全最经典SQL题】三累计求值

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】三累计求值【最全最经典SQL题】四窗口大小控制【最全最经典SQL题】五数据合并与拆分【最全最经典SQL题】六数据扩充与收缩【最全最经典SQL题】七容器【最全最经典SQL题】八时间序列【最全最经典SQL题】九非等值连接更新中........

2024-03-12 09:56:24 404

原创【最全最经典SQL题】二排名取它值

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】二排名取它值【最全最经典SQL题】三累计求值【最全最经典SQL题】四窗口大小控制更新中........本系列将提供建表语句、数据、解题SQL代码，大家动动小手指就能看到效果以便理解，为了方便大部分同学实操，默认采用MySQL的SQL，如Hive有区别的会注明一下。

2024-03-11 14:32:07 419

原创【最全最经典SQL题】一行列转换

从事数仓，数据开发的同学应该知道，日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。本系列不定期更新，内容如下：【最全最经典SQL题】一行列转换【最全最经典SQL题】二排名取它值【最全最经典SQL题】三累计求值【最全最经典SQL题】四窗口大小控制更新中........

2024-03-11 13:22:14 532

原创 dolphinscheduler海豚调度（五）seatunnel案例

seatunnel作为新一代流行的数据集成工具，其功能非常强大且简单易用，今天演示一下如何通过dolphinscheduler创建并运行seatunnel任务本次dolphinscheduler和seatunnel均部署在同一机器上的单机版本。

2024-03-06 18:51:49 1027

原创 Hive SQL 开发指南（三）优化及常见异常

使map的输出数据更均匀的分布到reduce中去，是我们的最终目标。由于Hash算法的局限性，按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。在此给出较为通用的步骤：1、采样log表，哪些user_id比较倾斜，得到一个结果表tmp1。由于对计算框架来说，所有的数据过来，他都是不知道数据分布情况的，所以采样是并不可少的。2、数据的分布符合社会学统计规则，贫富不均。倾斜的key不会太多，就像一个社会的富人不多，奇特的人不多一样。

2024-03-05 15:06:43 1678 1

原创 MySQL 新增用户及权限分配

2024-03-05 12:08:08 647

原创 Hive SQL 开发指南（二）使用（DDL、DML，DQL）

建表注意事项CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）LIKE 允许用户复制现有的表结构，但是不复制数据COMMENT可以为表与字段增加描述ROW FORMAT用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。

2024-03-01 14:18:50 1376

原创 Hive SQL 开发指南（一）数据类型及函数

在大数据领域，Hive SQL 是一种常用的查询语言，用于在 Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能，制定一套规范化的 Hive SQL 开发规范至关重要。本文将介绍 Hive SQL 的基础知识，并提供一些规范化的开发指南，帮助您高效地编写 Hive SQL 查询。本系列分为Hive SQL 开发指南（一）数据类型及函数Hive SQL 开发指南（二）使用（DDL、DML，DQL）Hive SQL 开发指南（三）优化及常见异常。

2024-03-01 10:54:14 1279

转载当我们聊数据质量的时候，我们在聊些什么？

随着大数据行业的深入发展，数据质量越来越成为一个绕不开的话题，那当大家在聊数据质量的时候，通常会聊什么呢？从什么是数据质量开始。

2024-02-29 10:18:56 44

原创数仓模型设计方法论

规范定义主要定义派生指标体系。包括原子指标、修饰词修饰词时间周期和派生指标。

2024-02-28 14:49:37 1318

原创 dolphinscheduler海豚调度（四）钉钉告警

在之前的博文中，我们已经介绍了DolphinScheduler海豚调度的基本概念和工作流程，以及Shell任务和SQL任务的实践。今天，让我们来学习DolphinScheduler中的另一个重要功能：钉钉告警。

2024-02-28 10:19:13 687

原创 dolphinscheduler海豚调度（三）SQL任务

在之前的博文中，我们已经介绍了DolphinScheduler海豚调度的基本概念和模块，安装部署和元数据切换，以及Shell任务的实践。今天，让我们来深入探讨DolphinScheduler中另一种常见的任务类型：SQL任务。SQL任务是DolphinScheduler中非常重要的一种任务类型，它允许用户在调度系统中运行SQL语句，通常用于数据处理、数据分析等场景。下面我分别以为MySQL和Hive为例，详细介绍如何在DolphinScheduler中创建和配置SQL任务。

2024-02-27 17:04:58 942

原创 dolphinscheduler海豚调度（二）快速运行第一个项目

在点击运行之后，在启动前请先设置参数的界面勾选是否是补数，并选中对应的补数方式和日期即可。注意：上线状态的工作流不能编辑，如果需要编辑则需要将该工作流下线。好了，第一个的dolphinScheduler 任务就完成了。进入对应的工作流，选中你要单独运行的任务，右键点击运行即可。第二步，进入刚才创建好的项目，工作流定义，创建工作流。可以在任务实例中查看刚才执行的任务运行状态和日志。此外，如果想运行单一任务该如果操作？确定，保存，这样一个任务就完成了。在工作流定义中也可以设置定时。第一步，项目管理，创建项目。

2024-02-27 16:26:46 465

DDD领域驱动设计day03.pdf

DDD领域驱动设计day02.pdf

DDD领域驱动设计day01.pdf

构建企业级数仓-Hadoop可行性分析报告.docx

空空如也