自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 git clone报错:error invalid path ‘dorisdockerthirdpartiesdocker-composexxxx‘

在周日晚上,我尝试从GitHub上克隆Doris的代码库,以便进行学习。在使用IntelliJ IDEA进行克隆时,我遇到了一个Git错误。此问题源于文件路径在Windows操作系统上过长,超出了系统限制。完成配置后,重新克隆代码库。

2024-04-17 11:57:22 446

原创 MySQL到Doris的StreamingETL实现(Flink CDC 3.0)

将flink-cdc-pipeline-connector-doris-3.0.0.jar以及flink-cdc-pipeline-connector-mysql-3.0.0.jar防止在FlinkCDC的lib目录下。4)在MySQL的test_route数据中对应的几张表进行新增、修改数据操作,并刷新Doris中doris_test_route数据库观察结果。(7)在MySQL的test数据中对应的几张表进行新增、修改数据以及新增列操作,并刷新Doris中test数据库观察结果。

2024-04-17 09:15:08 1030 1

转载 不可不说的Java“锁”事

Java提供了种类丰富的锁,每种锁因其特性的不同,在适当的场景下能够展现出非常高的效率。本文旨在对锁相关源码(本文中的源码来自JDK 8和Netty 3.10.6)、使用场景进行举例,为读者介绍主流锁的知识点,以及不同的锁的适用场景。Java中往往是按照是否含有某一特性来定义锁,我们通过特性将锁进行分组归类,再使用对比的方式进行介绍,帮助大家更快捷的理解相关知识。本文Java中常用的锁以及常见的锁的概念进行了基本介绍,并从源码以及实际应用的角度进行了对比分析。

2024-03-27 22:25:59 94 1

原创 hive 、spark 、flink之想一想

1:hive是怎么产生的?Hive是由Facebook开发的,目的是让拥有SQL知识的分析师能够在Hadoop上进行数据查询。Hive提供了类SQL的查询语言HiveQL,通过将HiveQL查询转换为MapReduce任务来在Hadoop上处理大规模数据。2:hive的框架是怎么样的?3:hive 执行流程是什么?4:hive sql是如何把sql语句一步一步到最后执行的?Hive SQL的执行过程主要包括解析、编译、优化、执行四个阶段。在解析阶段,Hive将SQL语句解析成抽象语法树;

2024-03-27 22:23:32 1314

原创 如何实现10亿数据的高效判重?

例如,对于10亿数据,假设可接受的误判率为0.01%,则可以计算出所需的位数组大小和哈希函数个数。方法中,我们创建了一个布隆过滤器实例,添加了一个字符串 “hello”,然后检查 “hello” 和 “world” 是否存在于过滤器中。方法中,我们创建了一个布隆过滤器实例,添加了一个字符串 “hello”,然后检查 “hello” 和 “world” 是否存在于过滤器中。:使用确定的参数初始化布隆过滤器,创建一个足够大的位数组,并准备相应数量的哈希函数。是一个包含不同种子值的数组,用于生成不同的哈希函数。

2024-03-26 08:33:22 636

原创 Spark性能优化指南——高级篇

有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。

2024-03-11 11:48:07 981

原创 【成本价特惠】招募证书代理:工信部、PMP、阿里云、华为等认证,机会难得!

我们目前正在积极招募各类证书的代理,包括工信部的证书、PMP(项目管理专业人士)证书、阿里云证书、华为证书、OCP 证书、CFA 证书等。这些证书在业界内享有极高的声誉和认可度,不仅能提升个人职业素养,还能为企业增加专业技能和竞争力。

2024-01-20 22:13:53 523

原创 大数据时代的黄金机遇:阿里云大数据分析师ACP认证【一条龙服务100%通过】

阿里云大数据分析师ACP认证是大数据领域的一项重要认证,无论是对于提升个人技能还是拓展职业道路都有着不可估量的价值。如果你有志于在这个充满潜力的行业中发展,那么这个认证无疑是你不容错过的选择。立刻行动,联系我开启你的大数据之旅吧!扫码和我联系。

2024-01-18 11:02:18 516

原创 常见Linux命令

vi是Unix和类Unix操作系统中出现的通用的文本编辑器。vim是从vi发展出来的一个性能更强大的文本编辑器,可以主动的以字体颜色辨别语法的正确性,方便程序设计,vim和vi编辑器完全兼容。使用:vi xxx文件 或者vim xxx文件,简单来说,就是用来编辑文件的一个工具,类似于我们再Windows上的一些文本编辑工具,只不过,这里是命令行形式的,不是图形用户界面形式的.接下来我们就准备一个文件,使用VIM对文件进行修改复制一个系统的配置文件到Root目录下,用以联系vim命令。

2024-01-17 15:04:41 982

原创 Linux 入门概述

Linux,全称GNU/Linux,其内核由林纳斯·本纳第克特·托瓦兹在赫尔辛基大学上学时出于个人爱好而编写的操作系统内核,于1991年10月5日首次发布,它主要受到Minix和Unix思想的启发,是一套免费使用和自由传播的类Unix操作系统,它是一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。各不同版本Linux,都是基于相同的内核版本,只是用的内核版本可能有高有低,同时各厂家自己加了自己有特点的工具,还有某些文件位置不一样,不同版本的Linux相同度可以达90%

2024-01-17 14:47:29 900

原创 Apache DolphinScheduler 3.1.8 保姆级教程【安装、介绍、项目运用、邮箱预警设置】轻松拿捏!

Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。

2024-01-17 09:04:37 1014

原创 数仓面试之手写拉链表SQL,并分析有多少个job

维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。如果当前信息至今有效,在生效结束日期中填入一个极大值 (如9999-99-99 )

2024-01-15 17:16:22 815

原创 【掌握关键】PMP一条龙考证攻略:揭秘100%通过的秘诀

引言:对于追求职业发展和项目管理卓越的专业人士而言,PMP认证无疑是一张宝贵的敲门砖。

2024-01-15 16:36:18 691

原创 高效构建Java应用:Maven入门和进阶

核心点掌握目标安装maven安装、环境变量、maven配置文件修改工程创建gavp属性理解、JavaSE/EE工程创建、项目结构依赖管理依赖添加、依赖传递、版本提取、导入依赖错误解决构建管理构建过程、构建场景、构建周期等继承和聚合理解继承和聚合作用、继承语法和实践、聚合语法和实践。

2024-01-11 10:21:00 850

原创 数仓建设指南

数据统计日期的分区字段按以下标准:。hh(00~23)。mi(00~59)。is_{业务}:表示布尔型数据字段。以Y和N表示,不允许出现空值域。原则上不需要冗余分区字段。

2024-01-11 09:58:33 996

原创 零基础教学文档之:docker

Docker是一个开源项目,诞生于2013年初,最初是dotCloud公司内部的一个业余项目。它基于Google公司推出的Go语言实现。项目后来加入了Linux基金会,遵从了Apache2.0协议,项目代码在GitHub上进行维护。Docker自开源后受到广范的关注和讨论,以至于dotCloud公司后来都改名为Docker Inc。RedHat已经在其RHEL6.5中集中支持Docker;Google也在其PaaS产品中广泛应用。Docker的目标是实现经量级的操作系统虚拟化解决方案。

2024-01-11 09:54:09 1046

原创 数据治理指南

根据数据质量不满足完整性、准确性、一致性、及时性时,对业务的影响程度划分数据的资产等级。毁灭性质:数据一旦出错,将会引起重大资产损失,面临重大收益损失等。标记为A1。全局性质:数据直接或间接用于企业级业务、效果评估和重要决策等。标记为A2。局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会给业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景。标记为Ax。

2024-01-11 09:52:05 1065

原创 FlinkCEP - Flink的复杂事件处理

FlinkCEP是在Flink上层实现的复杂事件处理库。它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分。本页讲述了Flink CEP中可用的API,我们首先讲述[模式API],它可以让你指定想在数据流中检测的模式,然后讲述如何[检测匹配的事件序列并进行处理]。再然后我们讲述Flink在按照事件时间[处理迟到事件]时的假设, 以及如何从旧版本的Flink向1.13之后的版本[迁移作业]。

2024-01-08 17:39:19 907

原创 数据仓库研发规范

本文将介绍数据仓库研发规范的阶段规划、角色职责和整体流程。

2024-01-08 16:57:08 1245

原创 Flink-容错机制

Flink 作为一个大数据分布式流处理框架,必须要考虑系统的容错性,主要就是发生故障之后的恢复。Flink 容错机制的核心就是检查点,它通过巧妙的分布式快照算法保证了故障恢复后的一致性,并且尽可能地降低对处理性能的影响。本文中我们详细介绍了 Flink 检查点的原理、算法和配置,并且结合一致性理论与Flink-Kafka 的实际互连系统,阐述了如何用 Flink 实现流处理应用的端到端exactly-once 状态一致性。这既是 Flink 底层原理的深入,也与之前的状态管理、水位线机制有联系和相通之处。

2024-01-08 16:48:59 1299

原创 还有人不知道 Java 8 Stream流底层原理?

还有人不知道 Java 8 Stream流底层原理?

2024-01-08 16:21:47 1035

原创 最全的Apache Doris教程(收藏版)共9万+字【第一篇】由于是typora编写,有部分图片在本地,识别不出来,请细聊我

简单易懂的doris教学

2023-02-22 13:33:58 35902 4

原创 15000字,详解基于OneData方法论构建数据仓库

基于OneData方法论构建数据仓库

2023-02-11 23:58:06 853

原创 hive常用函数大全

Hive常用函数大全,建议收藏~

2023-01-27 15:57:53 1472

原创 【大数据技术】爆肝3天 7个章节 Hive 3.1.3详解

Hive详细介绍及简单应用,包括:入门、安装、DDL、DML、查询、函数、分区表&分桶表等内容。

2023-01-25 15:27:16 788

原创 【Flink专题】-基于Flink 1.12 整理的第4篇 Flink-Table&SQL

Flink-Table&SQL发展历史及常用函数

2022-10-15 20:31:42 483

原创 【Flink专题】-高级API知识点整理

基于Flink-1.12的第三篇知识点总结~

2022-08-03 09:36:06 685

翻译 【ETL工具】-Kettle详细教程

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

2022-07-27 22:31:10 17019 5

原创 【Fink专题】基于Flink1.12的一些知识点分享-第二篇

虽然是基于1.12,但是内容绝对够用了,干货满满~

2022-07-10 22:16:15 794 1

转载 【kafka】使用本地代码作为生产者发送消息,但是在服务器中消费者接收不到信息

今天因工作需要,做了一些关于kafka实时收发数据的一些性能测试,避免不了本地的代码运行。发现使用本地代码作为生产者发送消息,但是在服务器中消费者接收不到信息。

2022-07-10 22:10:18 1848 3

原创 【Flink专题】基于Flink1.12的知识点总结

内容非常详细哦~

2022-07-06 22:44:38 791

原创 【2022】安装神通数据库及DataGrip连接

全网最简单良心保姆级安装教程(没有之一)

2022-07-03 22:35:45 8758 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除