- 博客(98)
- 资源 (4)
- 收藏
- 关注
原创 Fink CDC数据同步(六)数据入湖Hudi
Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。当开启change log mode,保留的最大commit数量。上面的查询方式是非流式查询,流式查询会生成一个flink作业,并且实时显示数据源变更的数据。将MySql映射表的数据插入hudi表,此时会生成一个flink任务。此时,执行select 语句就会生成一个flink 作业。,如果想消费所有数据,设置值为earliest。
2024-02-04 12:41:48 1680
原创 Fink CDC数据同步(五)Kafka数据同步Hive
通过flink sql client 建Kafka topic的映射表。如果没有切换hive方言建hive表会报错。
2024-02-04 12:26:44 1241
原创 Fink CDC数据同步(四)Mysql数据同步到Kafka
这里指定的Kafka topic会自动创建,也可以预先自行创建。将下列依赖包放在flink/lib。创建upsert-kafka 表。创建MySQL映射表。
2024-02-04 12:24:27 2159 4
原创 Fink CDC数据同步(三)Flink集成Hive
Flink利用Hive的MetaStore作为持久化的Catalog,我们可通过HiveCatalog将不同会话中的 Flink元数据存储到Hive Metastore 中。Flink打通了与Hive的集成,如同使用SparkSQL或者Impala操作Hive中的数据一样,我们可以使用Flink直接读写Hive中的表。
2024-02-03 22:38:29 1395
原创 Fink CDC数据同步(二)MySQL数据同步
和旧的快照读相比有以下优点:1. 并行读取 2. 支持checkpoint 3. 不需要锁表;当需要并行读取时,server-id需要设置数值范围,如5400-5408。当开启scan.incremental.snapshot.enabled时,建议指定server-id;connector 连接 MySQL 服务的最长等待超时时间。connector 创建 MySQL 连接的重试次数。MySql server 的主机名或者 IP 地址。连接 MySQL 数据库的用户名。连接 MySQL 数据库的密码。
2024-02-03 22:28:49 1900
原创 Fink CDC数据同步(一)环境部署
Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Flink CDC 是 Apache Flink 的一组源连接器,基于数据库日志的 Change Data Caputre 技术,实现了全量和增量的一体化读取能力,并借助 Flink 优秀的管道能力和丰富的上下游生态,支持捕获多种数据库的变更,并将这些变更实时同步到下游存储。
2024-02-03 22:21:57 3391
原创 数据质量之评估维度及检测项
数据质量之评估维度及检测项数据质量直接影响数据的价值,这里主要介绍一些业界主流的六大评估维度,分别是完整性,唯一性(独特性),一致性,准确性,有效性,时效性。以及我们在设计DQC的时候可以用什么检查规则取检测。一、完整性数据的每一项都应被记录,这样数据才完整。我们可以通过对字段是否为空或者是否为空字符串进行检测数据的完整性-- 空值检测select count(1) as cnt from ${db}.${table} where (${filter}) and (${field} is nul
2021-09-29 20:14:21 3866
原创 Hive SQL业务场景:求平台最高峰同时直播人数
现有某直播平台各主播登陆明细表:主播ID,上线时间,下线时间。现在需要求出该直播平台最高峰期同时在线主播人数。
2024-10-11 18:39:22 161
原创 Hive SQL业务场景:连续5天涨幅超过5%股票
现有一张股票价格表 dwd_stock_trade_dtl 有3个字段分别是:股票代码(stock_code),日期(trade_date),收盘价格(closing_price)。请找出满足连续5天以上(含)每天上涨超过5%的股票,并给出连续满足天数及开始和结束日期。备注:不考虑停牌或其他情况,仅仅关注每天连续5天上涨超过5%的股票。
2024-09-27 19:06:39 736
原创 数据管理能力成熟度评估模型DCMM
DCMM(Data Management Capability Maturity Assessment Model)数据管理能力成熟度评估模型是由中国国家标准化管理委员会于2018年3月15日发布,于2018年10月1日起实施的我国首个数据管理领域国家标准。该标准把组织内部数据能力划分为八个重要组成部分,描述了每个组成部分的定义、功能、目标和标准。本标准适用于信息系统的建设单位,应用单位等进行数据管理时候的规划,设计和评估。也可以作为针对信息系统建设状况的指导、监督和检查的依据。
2024-09-04 17:02:53 768
原创 标签画像体系应用实践
标签画像体系应用是一种利用用户标签数据实现个性化推荐和精准营销的方法。通过整合和清洗数据、画像建模和智能推荐系统开发等步骤,可以解决数据碎片化、缺乏精准推荐等问题。通过案例分析可以看出,标签画像体系应用能够帮助企业更好地了解用户需求,提供个性化的服务,提升竞争力和用户满意度。
2024-03-14 11:34:57 1118
原创 【最全最经典SQL题】五 产生连续数值
构造两个临时表 一个4一个6,通过笛卡尔积可以构造24行记录扩展:生产过去2年的年月字段FROM () xcxc。
2024-03-12 15:47:41 780
原创 【最全最经典SQL题】四 窗口大小控制
从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】四 窗口大小控制【最全最经典SQL题】五 数据合并与拆分【最全最经典SQL题】六 数据扩充与收缩【最全最经典SQL题】七 容器【最全最经典SQL题】八 时间序列【最全最经典SQL题】九 非等值连接更新中........
2024-03-12 14:58:26 446
原创 【最全最经典SQL题】三 累计求值
从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制【最全最经典SQL题】五 数据合并与拆分【最全最经典SQL题】六 数据扩充与收缩【最全最经典SQL题】七 容器【最全最经典SQL题】八 时间序列【最全最经典SQL题】九 非等值连接更新中........
2024-03-12 09:56:24 497
原创 【最全最经典SQL题】二 排名取它值
从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】二 排名取它值【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制更新中........本系列将提供建表语句、数据、解题SQL代码,大家动动小手指就能看到效果以便理解,为了方便大部分同学实操,默认采用MySQL的SQL,如Hive有区别的会注明一下。
2024-03-11 14:32:07 486
原创 【最全最经典SQL题】一 行列转换
从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。本系列不定期更新,内容如下:【最全最经典SQL题】一 行列转换【最全最经典SQL题】二 排名取它值【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制更新中........
2024-03-11 13:22:14 670
原创 dolphinscheduler海豚调度(五)seatunnel案例
seatunnel作为新一代流行的数据集成工具,其功能非常强大且简单易用,今天演示一下如何通过dolphinscheduler创建并运行seatunnel任务本次dolphinscheduler和seatunnel均部署在同一机器上的单机版本。
2024-03-06 18:51:49 2706
原创 Hive SQL 开发指南(三)优化及常见异常
使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。在此给出较为通用的步骤:1、采样log表,哪些user_id比较倾斜,得到一个结果表tmp1。由于对计算框架来说,所有的数据过来,他都是不知道数据分布情况的,所以采样是并不可少的。2、数据的分布符合社会学统计规则,贫富不均。倾斜的key不会太多,就像一个社会的富人不多,奇特的人不多一样。
2024-03-05 15:06:43 1919 1
原创 Hive SQL 开发指南(二)使用(DDL、DML,DQL)
建表注意事项CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)LIKE 允许用户复制现有的表结构,但是不复制数据COMMENT可以为表与字段增加描述ROW FORMAT用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。
2024-03-01 14:18:50 1533
原创 Hive SQL 开发指南(一)数据类型及函数
在大数据领域,Hive SQL 是一种常用的查询语言,用于在 Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能,制定一套规范化的 Hive SQL 开发规范至关重要。本文将介绍 Hive SQL 的基础知识,并提供一些规范化的开发指南,帮助您高效地编写 Hive SQL 查询。本系列分为Hive SQL 开发指南(一)数据类型及函数Hive SQL 开发指南(二)使用(DDL、DML,DQL)Hive SQL 开发指南(三)优化及常见异常。
2024-03-01 10:54:14 1586
转载 当我们聊数据质量的时候,我们在聊些什么?
随着大数据行业的深入发展,数据质量越来越成为一个绕不开的话题,那当大家在聊数据质量的时候,通常会聊什么呢?从什么是数据质量开始。
2024-02-29 10:18:56 87
原创 dolphinscheduler海豚调度(四)钉钉告警
在之前的博文中,我们已经介绍了DolphinScheduler海豚调度的基本概念和工作流程,以及Shell任务和SQL任务的实践。今天,让我们来学习DolphinScheduler中的另一个重要功能:钉钉告警。
2024-02-28 10:19:13 1251
原创 dolphinscheduler海豚调度(三)SQL任务
在之前的博文中,我们已经介绍了DolphinScheduler海豚调度的基本概念和模块,安装部署和元数据切换,以及Shell任务的实践。今天,让我们来深入探讨DolphinScheduler中另一种常见的任务类型:SQL任务。SQL任务是DolphinScheduler中非常重要的一种任务类型,它允许用户在调度系统中运行SQL语句,通常用于数据处理、数据分析等场景。下面我分别以为MySQL和Hive为例,详细介绍如何在DolphinScheduler中创建和配置SQL任务。
2024-02-27 17:04:58 1937 3
原创 dolphinscheduler海豚调度(二)快速运行第一个项目
在点击运行之后,在启动前请先设置参数的界面勾选是否是补数,并选中对应的补数方式和日期即可。注意:上线状态的工作流不能编辑,如果需要编辑则需要将该工作流下线。好了,第一个的dolphinScheduler 任务就完成了。进入对应的工作流,选中你要单独运行的任务,右键点击运行即可。第二步,进入刚才创建好的项目,工作流定义,创建工作流。可以在任务实例中查看刚才执行的任务运行状态和日志。此外,如果想运行单一任务该如果操作?确定,保存,这样一个任务就完成了。在工作流定义中也可以设置定时。第一步,项目管理,创建项目。
2024-02-27 16:26:46 607
转载 谈谈数据基础设施
刘烈宏也呼吁,希望高校、科研院所、产业链各界,在数据创新、融合、变革的时代浪潮下,共同推动数据基础设施概念理论、架构体系、核心技术、标准规范不断演进迭代,携手并进,推动数据基础设施建设,完善数据基础制度,激活数据要素价值,谱写数字经济发展新篇章,共同为我国数据事业发展贡献力量。,刘烈宏认为,数据基础设施利用云计算、边缘计算、分布式计算、大数据处理、AI分析、绿色低碳等技术,为参与方提供高效便捷、安全可靠的数据要素存储、计算、分析能力,有效推动数据处理环节实现高效率、低成本、高智能。
2024-02-27 15:28:37 122
原创 数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC
SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处理过程中的数据同步问题,支持实时数据处理和批量数据处理,提供了丰富的数据源连接器,包括Kafka、HDFS、JDBC等。DataX是阿里巴巴开源的一个异构数据源离线同步工具,主要用于在各种异构数据源之间高效的进行数据同步,支持包括MySQL、Oracle、HDFS、Hive等在内的多种数据源。Sqoop是一款开源的工具,用于在Hadoop和关系型数据库之间高效地传输数据。
2024-02-07 22:49:31 5838 1
原创 Oracle11g安装配置详细教程
Oracle11g安装配置详细教程# #Oracle#Oracle Database 11g是一款广泛使用的关系型数据库管理系统,它为企业级的应用提供了强大的数据管理功能。本文将详细介绍如何在Windows环境下安装和配置Oracle 11g。
2024-02-07 14:39:06 1306
原创 dolphinscheduler海豚调度(一)简介&快速体验
Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。
2024-02-06 23:59:13 1998
原创 seatunnel数据集成(四)转换器使用
seatunnel除了丰富的连接器类型,其转换器也能够让数据转换更加简单,包括Copy,Filter,FieldSelector,FielMapper,DATa Filter,TypeConverter,Replace,Split,FilterRowKind,SQL,SQL Functions等。
2024-02-06 00:23:44 2663
原创 seatunnel数据集成(三)多表同步
seatunnel除了单表之间的数据同步之外,也支持单表同步到多表,多表同步到单表,以及多表同步到多表
2024-02-05 23:59:01 3386
原创 seatunnel数据集成(二)数据同步
如果用的是Spark/Flink引擎,需要Spark/Flink已经集成好了Hive。放到 $SEATUNNEL_HOME/lib/ 目录下。如果用SeaTunnel Zeta引擎,需要将。指定作业模式为:STREAMING。需求:根据创建时间,每天增量抽取。
2024-02-05 23:54:05 2291
原创 seatunnel数据集成(一)简介与安装
在Apache的仓库下载相应的connector,下载时每个jar包在不同的路径下面,放到/SeaTunnel-2.3.1/connectors/SeaTunnel目录下。--check 检查config语法是否合法。--variable 应用配置里的变量赋值。下载完毕之后上传到服务器上面并解压。配置安装SeaTunnel的插件。--config 应用配置的路径。下载对应的connector。安装SeaTunnel。
2024-02-05 23:38:53 1320
原创 解决datart报错:Invalid database configuration. Datart is running in demo mode
再次启动,就不会报无效数据库配置了,在预先建好的datart数据库中,随着程序的启动而自动建表。原因是缺少一个变量 config。
2023-09-28 17:47:43 2563
原创 Flink+Flink CDC版本升级的依赖问题总结
flink 1.16 + flink-connector-mysql-cdc2.3 的依赖冲突问题总结。
2023-09-05 17:05:29 5037
转载 JuiceFS 环境搭建与挂载
JuiceFS官方文档是一款面向云原生设计的高性能共享文件系统,在 Apache 2.0 开源协议下发布。提供完备的兼容性,可将几乎所有对象存储接入本地作为海量本地磁盘使用,亦可同时在跨平台、跨地区的不同主机上挂载读写。JuiceFS 采用「数据」与「元数据」分离存储的架构,从而实现文件系统的分布式设计。使用 JuiceFS 存储数据,数据本身会被持久化在(例如,Amazon S3),相对应的元数据可以按需持久化在 Redis、MySQL、TiKV、SQLite 等多种中。
2022-10-12 18:12:52 1743
构建企业级数仓-Hadoop可行性分析报告.docx
2020-04-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人