自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(103)
  • 收藏
  • 关注

原创 Mysql函数 (进阶介绍 七)

mysql函数的介绍与使用

2024-07-25 10:45:00 642

原创 Mysql语法 (进阶介绍 六)

mysql语法,导出和导入数据介绍及使用

2024-07-24 14:00:00 896

原创 Mysql语法 (进阶介绍 五)

如果我们需要完全的复制MySQL的数据表,包括表的结构,索引,默认值等。如果仅仅使用命令,是无法实现的获取数据表的完整结构。修改SQL语句的数据表名,并执行SQL语句。执行完第二步骤后,你将在数据库中创建新的克隆表 clone_tbl。如果你想拷贝数据表的数据你可以使用语句来实现。执行以上步骤后,你将完整的复制表,包括表结构及表数据。

2024-07-24 09:45:00 904

原创 Doris安装部署

doris安装部署,fe的扩容和缩容,be的扩容和缩容

2024-07-23 17:55:08 1817

原创 Mysql语法 (进阶介绍 四)

mysql的alter,索引,临时表介绍与使用

2024-07-23 11:30:00 885

原创 Mysql语法(进阶介绍 三)

mysql语法介绍与使用方式

2024-07-23 09:30:00 985

原创 Mysql语法(进阶介绍 二)

MySQL 中定义数据字段的类型对数据库的优化是非常重要的。MySQL 支持多种类型,大致可以分为三类:数值、日期/时间和字符串(字符)类型。

2024-07-22 15:30:00 978

原创 Mysql入门 (基础介绍 一)

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,每个数据库都有一个或多个不同的API用于创建,访问,管理,搜索和复制所保存的数据。我们也可以将数据存储在文件中,但是在文件中读写数据速度相对较慢。所以,现在我们使用关系型数据库管理系统(RDBMS)来存储和管理的大数据量。所谓的关系型数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。

2024-07-22 10:42:44 747

原创 Flink Sql和Flink DataStream的区别及使用场景

Apache Flink 是一个强大的分布式流处理框架,它提供了两种主要的编程 API:Flink SQL 和 Flink DataStream。尽管这两种 API 都可以用来处理实时数据流,但它们在设计目标、使用场景和编程方式上有显著的区别

2024-07-19 09:00:00 1665

原创 zookeeper内部原理 (进阶介绍 三)

ZooKeeper内部原理主要围绕其核心组件和机制来展开,包括其架构、数据一致性协议(Zab协议)、Watcher机制等

2024-07-18 15:00:00 596

原创 Zookeeper介绍 (基础介绍 一)

Zookeeper是一个的开源概架,主要用来解决分布式集群中应用系统的问题,例如怎样避免同时操作同一数据造成脏读的问题,ZooKeeper本质上是,提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理,从而用来维护和监控你存储的数据的状态变化,通过监控这些数据状态的变化,从而可以达到基于数据的集群管理,诸如:统一命名服务、分布式配置管理、负载均衡、分布式锁、分布式协调等功能。

2024-07-18 10:00:00 526

原创 Hbase_RegionServer (进阶介绍 四)

RegionServer 是 HBase 的核心组件之一,负责处理和管理存储在 HBase 表中的数据。它主要执行读写请求,并维护数据的一致性和可用性。

2024-07-17 15:00:00 974

原创 Hbase 基本操作(进阶介绍 三)

HBase 是一个分布式的 NoSQL 数据库,具有高性能、可扩展性和强大的大数据处理能力。以下是一些常见的 HBase 基础操作,包括表的创建、数据的插入、查询和删除等。

2024-07-17 09:00:00 503

原创 Hbase安装部署(进阶介绍 二)

HBase 是一个分布式的、面向列的数据库,构建在 Hadoop 文件系统(HDFS)之上。它主要用于处理大规模数据集,特别是在需要随机读写访问的情况下

2024-07-16 18:00:00 2166

原创 Hbase简介(基础介绍 一)

HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库"NoSQL"是一个通用词表示数据库不是RDBMS ,后者支持 SQL 作为主要访问手段。有许多种 NoSQL 数据库: BerkeleyDB 是本地 NoSQL 数据库例子, 而 HBase 是大型分布式数据库。技术上来说, HBase 更像是"数据存储(Data Store)" 多于 "数据库(Data Base)"。因为缺少很多RDBMS特性, 如列类型,第二索引,触发器,高级查询语言等。

2024-07-16 13:22:11 964

原创 Flume简介(基础介绍_一)

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。

2024-07-16 09:45:00 823

原创 AI发展下的伦理挑战,应当如何应对?

随着人工智能(AI)技术的迅猛发展,AI 已经成为我们日常生活和各行各业中不可或缺的一部分。然而,AI 的快速普及和应用也带来了诸多伦理挑战。如何应对这些挑战,确保 AI 的发展能够造福全人类,而不是带来新的问题和风险,成为了一个亟待解决的课题。本文将探讨 AI 发展下的伦理挑战,并提出相应的应对策略。

2024-07-15 16:23:08 634

原创 当在使用flinksql的left join出现撤回流该如何解决?

在 Flink SQL 中,INNER JOIN、RIGHT JOIN 和 FULL OUTER JOIN 操作会因为数据变化而产生撤回流。这是为了确保流处理的结果一致性和准确性。在设计流处理应用时,需要考虑这些撤回流的影响,选择合适的 sink connector,例如 upsert-kafka,以正确处理这些操作

2024-07-15 13:48:02 1803

原创 什么是撤回流?撤回流在什么情况下产生的?

撤回流是流处理系统中的一个重要机制,用于在数据发生变化时撤销或更新之前的输出结果,保证数据处理的最终一致性和准确性。它通过发送撤回消息来实现这种机制,在处理JOIN、聚合等操作时尤其重要。

2024-07-15 09:40:24 714

原创 AI究竟是在帮助开发者还是取代他们

人工智能(AI)的迅猛发展正在各行各业引发深远影响。尤其是在软件开发领域,AI的应用日益广泛,带来了效率和创新的提升。然而,随着AI技术的不断进步,人们也开始担心AI是否会取代人类开发者,导致失业和职业危机。本文将探讨AI在软件开发中的作用,分析其对开发者的帮助与潜在取代,并提出相应的应对策略。

2024-07-12 11:24:47 736

原创 开源项目有哪些机遇与挑战?

在当今技术迅猛发展的时代,开源项目已经成为软件开发的重要组成部分。无论是初创公司、大型企业还是个人开发者,开源项目都提供了前所未有的机会。然而,开源项目的蓬勃发展也带来了许多挑战。本文将探讨开源项目的机遇与挑战,并探讨如何有效地利用这些机遇和应对这些挑战。

2024-07-12 11:14:57 771

原创 谈一谈Flinksql的Join和Lookupjoin的区别

在实时数仓中,通过动态查询、内存优化、高效处理大规模数据以及灵活的数据源连接,能够更好地满足实时性要求和资源利用效率,因此被更广泛地应用在实时数仓中使用普通JOIN会面临内存消耗大、延迟高、扩展性差、数据倾斜、动态数据处理困难以及难以与外部系统集成等问题。这些缺点使得普通JOIN难以满足实时数仓对于低延迟、高性能和灵活性的要求。因此,实时数仓更倾向于使用来解决这些问题。

2024-07-12 10:00:00 1210

原创 Vmware_Mysql8.0.31_安装部署

卸载MySQL依赖,虽然机器上没有装MySQL,但是这一步不可少。

2024-07-11 23:30:44 342

原创 数据仓库介绍_数仓设计 (四)

优秀可靠的数仓体系,需要良好的数据分层结构。合理的分层,能够使数据体系更加清晰,使复杂问题得以简化。以下是该项目的分层规划

2024-07-11 15:00:00 886

原创 数据仓库介绍_维度表(三)

维度表是维度建模的基础和灵魂。前文提到,事实表紧紧围绕业务过程进行设计,而维度表则围绕业务过程所处的环境进行设计。维度表主要包含一个主键和各种维度字段,维度字段称为维度属性。

2024-07-11 10:00:00 987

原创 数据仓库介绍_事实表(二)

事务事实表用来记录各业务过程,它保存的是各业务过程的原子操作事件,即最细粒度的操作事件。粒度是指事实表中一行数据所表达的业务细节程度。事务型事实表可用于分析与各业务过程相关的各项统计指标,由于其保存了最细粒度的记录,可以提供最大限度的灵活性,可以支持无法预期的各种细节层次的统计需求。

2024-07-11 09:15:00 829

原创 Hive 查询语句 (进阶介绍 五)

hive语句介绍or使用

2024-07-10 11:00:00 1019

原创 数据仓库介绍_数仓介绍(一)

数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。数据仓库核心架构系统数据流程图Flink实时数仓数据流程图普通实时计算与实时数仓比较普通的实时计算优先考虑时效性,所以从数据源采集经过实时计算直接得到结果。

2024-07-10 09:00:00 1224

原创 解决:Flink向kafka写数据使用Producer精准一次(EXACTLY_ONCE)异常

Caused by: org.apache.kafka.common.KafkaException: Unexpected error in InitProducerIdResponse; The transaction timeout is larger than the maximum value allowed by the broker (as configured by transaction.max.timeout.ms)

2024-07-09 16:21:30 561

原创 Hive DML数据操作(进阶介绍 四)

hive数据导入导出语法介绍

2024-07-09 10:49:06 758

原创 Hive DDL数据定义(进阶介绍 三)

hive数据类or数据定义介绍与使用

2024-07-09 09:03:40 547

原创 Hive基本概念(基础介绍 一)

Hive由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上Hive的优缺点。

2024-07-08 10:30:00 779

原创 实时数仓搭建

本项目针对实时数仓中的dim层,使用flik获取维度数据以及维度表结构把处理过的数据和维度表同步到habse中,同步采用的是雪花模型,遵循三范式,对维度数据进行实时的增删改查。对维度表进行动态拆分功能。动态拆分功能就是使用flink-CDC对维度配置表进行实时监控,如果新增了一张维度表,hbase中也新增这张维度表,如果删除一张表同样在hbase中也删除这张表。最终将编译代码上传到gitlab上。

2024-07-08 09:23:50 1615 1

原创 Kafka架构深入(进阶介绍 三)

Kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的。topic是逻辑上的概念,而partition是物理上的概念,,该log文件中存储的就是producer生产的数据。Producer生产的数据会被不断追加到该log文件末端,且每条数据都有自己的offset。消费者组中的每个消费者,都会实时记录自己消费到了哪个offset,以便出错恢复时,从上次的位置继续消费。

2024-07-05 14:00:00 872

原创 Kafka概述(基础介绍 一)

Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。Kafka是一个分布式的数据流式传输平台。在流式计算中,Kafka一般用来缓存数据,Spark通过消费Kafka的数据进行计算。1.Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2.Kafka最初是由LinkedIn公司开发,并于2011年初开源。2012年10月从Apache Incubator毕业。

2024-07-05 09:30:17 825

原创 DolphinScheduler部署安装or基础介绍(一)

Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。

2024-07-04 09:28:51 1054

原创 datax简介(基础介绍 一)

DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。GitHub - alibaba/DataX: DataX是阿里云DataWorks数据集成的开源版本。

2024-07-03 17:30:47 743

原创 Doris进阶介绍(三)

这里我们只以 AGGREGATE KEY 数据模型为例进行说明。以AGGREGATE KEY数据模型为例进行说明。更多数据模型参阅Doris数据模型。列的基本类型,可以通过在mysql-client中执行HELP CREATE TABLE;查看。AGGREGATE KEY数据模型中,所有没有指定聚合方式(SUM、REPLACE、MAX、MIN)的列视为Key列。而其余则为Value列。定义列时,可参照如下建议:Key 列必须在所有Value列之前。

2024-07-02 15:36:32 1048

原创 Doris进阶介绍(二)

在Doris中,数据都以关系表(Table)的形式进行逻辑上的描述一张表包括行(Row)和列(Column):Row,即用户的一行数据;Column,用于描述一行数据中不同的字段。Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列 在Doris的存储引擎中,用户数据首先被划分成若干个分区(Partition),划分的规则通常是按照用户指定的分区列进行范围划分,比如按时间划分。而在每个分区内,数据被进一步的按照Hash的方式分桶

2024-07-02 15:10:52 1060

原创 Doris基础介绍(一)

Apache Doris由百度大数据部研发(之前叫百度 Palo,2018年贡献到 Apache 社区后,更名为 Doris),在百度内部,有超过200个产品线在使用,部署机器超过1000台,单一业务最大可达到上百 TB。Apache Doris是一个现代化的MPP (Massively Parallel Processing,即大规模并行处理)分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。

2024-07-02 14:34:33 3453

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除