自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

空城的博客

空城的博客

  • 博客(69)
  • 收藏
  • 关注

原创 高斯DWS数据库根据数据业务时间以及指标周期判断是否滞后

在判断指标更新是否及时的过程中,需要根据指标的更新周期和更新时间判断指标更新是否及时,业务更新周期分别有每日、每小时、实时、每天、每月、每季度、每半年、每年、不定期、不更新等,代码中最细粒度只到天维度,小时级和分钟级不统计;

2024-04-12 18:12:07 579

原创 高斯DWS数据库日期时间格式转换-数据质量

在项目中有时候需要对时间日期字段进行规范化,比如业务时间各种各样格式的都有,甚至有部分存在不是日期时间格式,需要规范化字段和剔除掉不可用的脏数据;

2024-04-12 17:42:39 1295

原创 Seatunnel和web快速安装详解

Apache SeaTunnel里面的Connector对应的jar包需要自己下载,在执行自动下载jar包前,进入apache-seatunnel-2.3.3,查看vim bin/install-plugin.sh内容,主要内容就是下载jar包,默认是从mvvm下载,下载速度太慢,我这边安装了maven,并且配置了阿里云仓库,因此可以直接将下图中命令替换,从maven中下载,seatunnel提供了很多数据源jar包,需要下载好,否则会出现无法创建数据源等各种问题;看到是从阿里云下载的,等待下载完成即可。

2024-04-08 16:56:32 3433 7

原创 牛客网-SQL大厂面试题-2.平均播放进度大于60%的视频类别

【代码】牛客网-SQL大厂面试题-2.平均播放进度大于60%的视频类别。

2024-03-16 18:20:40 675

原创 牛客网-SQL大厂面试题-1.各个视频的平均完播率

牛客网-SQL大厂面试题-1.各个视频的平均完播率

2024-03-16 18:17:39 725

原创 HIVE使用正则表达式截取金额信息

由于家里环境没有MRS Hive,因此使用Apache hive实现这个函数功能,MRS Hive如果可用则不用看此模块2.1。

2024-01-05 09:18:10 503

原创 Kafka安全认证机制详解之SASL_SCRAM

SASL/SCRAM 通过将认证用户信息保存在 ZooKeeper 的方式,避免了动态修改需要重启 Broker 的弊端。在实际使用过程中,可以使用 Kafka 提供的命令动态地创建和删除用户,无需重启整个集群。因此,如果打算使用 SASL/PLAIN,不妨改用 SASL/SCRAM 试试。不过要注意的是,后者是 0.10.2 版本引入的。

2024-01-05 09:15:01 2777 1

原创 Hive自定义函数支持国密SM4解密

SmUtil引用的是hutools里的工具类。

2024-01-02 17:20:00 1053

原创 Kafka安全认证机制详解之SASL_PLAIN

上面配置是新增了两个用户,admin和tly,这两个用户都是普通用户,KafkaServer中的username、password配置的用户和密码,是用来broker和broker连接认证。在本例中,admin是代理broker间通信的用户。这个时候使用auth.conf已经不能创建topic了,使用admin.conf可以创建,因为admin账号和配置的超级管理员一致;使用权限配置并且超级用户是admin,这个用户和我们上面配置的列表中的admin用户相互映射,每个机器都需要配置然后重启所有节点。

2024-01-02 17:18:22 3144

原创 数据治理之数据质量管理

数据质量表示数据是否能满足业务需求或达到某种标准,能够满足需求的数据就是高质量数据,不能满足需求的数据就是低质量数据。数据质量测量是指为了达到某种预期,按照一定的标准从数据质量维度进行衡量,以确定数据达到预期的程度。数据质量管理就是我们对数据整个的生命周期都要对数据的质量进行管控,对数据从计划、 获取、存储、 共享、 维护、 应用到消亡生命周期的每个阶段可能引发的数据质量问题, 进行识别、 测量、 监控、 预警等一系列管理活动, 并通过改善和提高组织的管理水平使数据质量获得进一步提高。

2023-12-27 09:21:37 1268

原创 数据治理之主数据管理

主数据(Master Data) 是具有共享性的基础数据, 可以在企业内跨越各个业务部门被重复使用, 比如, 可以是与客户、 供应商、 账户及组织单位相关的数据, 因此通常长期存在且应用于多个系统。主数据具有高价值、高共享、相对稳定的特性。主数据管理是集方法、 标准、 流程、 制度、 技术和工具为一体的解决方案。方法是指主数据梳理、 识别、 定义、 管理、 清洗、 集成和共享所需要的一系列咨询和管理方法。标准涵盖了主数据的分类、 编码、 建模、 清洗、 集成、 管理、 运营等的相关标准和规范。

2023-12-27 09:19:02 2033

原创 数据治理之数据标准管理

数据标准管理是数据管理的基础性工作,是企业数据治理的第一步。数据标准(Data Standards) 是指保障数据的内外部使用与交换的一致性和准确性的规范性约束。数据标准就是对一项事物的统一描述,防止有歧义存在。比如:对于销售来说,客户是购买企业产品的人员,对于财务来说,是发生财务往来,需要记账的人员,对于IT来说,需求部门;对于市场人员,想要购买我们产品的人。数据标准化是建立各部门数据共识过程, 是各业务部门之间沟通和各系统之间数据整合的基础。数据标准化是建立各部门共识的过程。

2023-12-25 13:08:15 1684 2

原创 数据治理之元数据管理

元数据是关于数据的组织、 数据域及其关系的信息, 简言之, 元数据就是描述数据的数据。举例:图书馆中的图书目录,或者一本书的目录。元数据管理是对涉及的业务元数据、 技术元数据、 操作元数据进行盘点、集成和管理。采用科学有效的机制对元数据进行管理, 并面向开发人员、 业务用户提供元数据服务, 可以满足用户的业务需求, 为企业业务系统和数据分析的开发、 维护等过程提供支持。可以从技术、 业务和应用三个角度理解元数据管理。

2023-12-20 23:40:02 2795

原创 数据治理之数据梳理与建模

概念:根据DAMA-DMBOK2的描述, 数据模型是一组反映数据需求和设计的数据规范与相关图示。举例:买房时看到楼盘模型,模型对应实际房子的户型、绿化、周围设置等。就像房子模型是对房子特征的描述一样, 数据模型就是对数据特征的描述。换句话说, 数据模型就是用来描述数据的一组简单易懂、 便于计算机实现的标准符号的集合。:::info所谓“数据梳理”即对企业数据资产的梳理。通过对数据进行梳理, 可以知道企业到底有哪些数据, 这些数据存在哪里, 数据的质量如何。

2023-12-20 23:13:28 1644 1

原创 一本书读懂数据治理

企业数据治理非常必要,它是企业实现数字化转型的基础,是企业的一个顶层策略,一个管理体系,也是一个技术体系,涵盖战略、组织、文化、方法、制度、流程、技术和工具等多个层面的内容。数据治理不是对“数据”的治理,而是对“数据资产”的治理。数据治理可以有效盘活企业的数据资产。

2023-12-01 18:01:39 429

原创 kerberos详解

Kerberos始于20世纪80年代早期麻省理工学院(MIT)的一个研究项目,是一个网络身份验证系统。Kerberos提供的完整定义是安全的、单点登录的、可信的第三方相互身份验证服务。

2023-12-01 17:28:54 1840 2

原创 高斯DWS数据库分页查询优化思路

高斯是分布式数据库,将会对数据进行分布式存储,会增加网络之间传输的性能损耗,因此尝试了下每个节点都保存一份数据,是否能增加查询速度,这个做法的弊端在于,数据会在每个查询节点都会存储一份,造成存储资源的浪费,在实际测试中,查询性能并不能得到提升。背景:数据仓库采用高斯DWS,API平台采用DBAPI,平台限制了一个请求最大3S,因此超过3S的请求将会被取消掉,请求3S并不是SQL执行3S,经过验证,SQL执行九百多毫秒请求就会被杀掉,当前表数据大概四百多万。

2023-11-20 10:07:54 762

原创 JAVA生成ORC格式文件

基于此可以根据实际业务场景可以生成ORC格式数据并上传到HDFS上提供Hive查询。

2023-10-18 17:46:19 661

原创 Jenkins+gitlab实现自动化部署

Jenkins 是一个用 Java 编写的开源自动化工具,带有用于持续集成的插件。用于持续构建和测试您的软件项目,从而使开发人员更容易将更改集成到项目中,并使用户更容易获得新的构建。它还允许您通过与大量测试和部署技术集成来持续交付软件。Jenkins 集成了各种开发生命周期过程,包括构建、文档、测试、打包、模拟、部署、静态分析等等。Jenkins 借助插件实现了持续集成。插件允许集成各种 DevOps 阶段。如果要集成特定工具,则需要安装该工具的插件。例如 Git、Maven、Node 项目等。

2023-08-08 13:28:52 3817

原创 ShardingSphere-Proxy入门-安装到使用

从上面的结果可以不同的表分不到了不同的数据库,实现了垂直分片。根据实际数据库将需要的驱动放到对应的路径下(ext-lib)修改conf/server.yaml。偶数数取模入到db_1库的表中。显示上面的结果就是连接成功。并上传到conf下并重启服务。奇数取模入到db_2库的表中。

2023-05-31 18:04:15 1156 1

原创 Clickhouse MaterializeMySQL引擎详解

MaterializeMySQL是针对Mysql设计的,为了增强数据的实时性,很多解决方案会利用binlog将数据写入到Clickhouse中,为了能够监听到Binlog事件,需要采用类似于canal这样的第三方中间件,这样就会增加系统的复杂度。Clickhouse在20.8版本增加了MaterializeMySQL的database引擎,该database能映射到Mysql中的某个database,并自动在clickhouse中创建对应的ReplacingMergeTree。

2023-05-24 15:21:48 822

原创 Clickhouse物化视图详解

物化视图是对查询结果的持久化,能够提升查询效率,查询起来就像查询一张表一样。

2023-05-24 14:26:43 1439

原创 Clickhouse数据一致性详解

在查询语句后增加 FINAL 修饰符,这样在查询的过程中将会执行 Merge 的特殊逻辑(例如数据去重,预聚合等)。在 v20.5.2.7-stable 版本中,FINAL 查询支持多线程执行,并且可以通过 max_final_threads参数控制单个查询的线程数。FINAL 查询最终的性能和很多因素相关,列字段的大小、分区的数量等等都会影响到最终的查询时间,所以还要结合实际场景取舍。create_time 是版本号字段,每组数据中 create_time 最大的一行表示最新的数据;

2023-05-24 10:42:22 1133

原创 Clickhouse优化详解

索引列必须执行,Clickhouse中的索引列即排序列,通过order by执行,一般在查询条件中经常被用来充当筛选条件的属性被纳入进来,可以是单一的维度,也可以是组合维度的索引,通常是高级列在前、查询频率较大的列在前的原则,筛选后的数据满足在百万以内最佳。批量写入数据时,必须控制每个批次的数据中涉及到的分区的数量,在写入之前最好对需要导入的数据进行排序,无序的数数据或者涉及到的分区太多,会导致Clickhouse无法及时对新导入的数据进行合并,从而影响查询性能。

2023-05-24 10:42:08 1866

原创 Clickhouse入门之语法

ReplacingMergeTree是MergeTree的延伸,只是相比MergeTree多了一个去重的功能,因为MergeTree可以设置主键,但是主键并没有唯一约束,还是会重复,如果想去掉重复的数据就使用ReplacingMergeTree。建议尽可能以整数形式存储数据。稀疏索引的好处就是可以用很少的索引数据,定位更多的数据,代价就是只能定位到索引粒度的第一行,然后再进行进行一点扫描。主键,Clickhouse中的主键只提供了数据的一级索引,但是不是唯一索引,因此会存在主键相同的数据。

2023-05-19 17:01:29 2936

原创 Clickhouse入门之安装使用

clickhouse是2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。

2023-05-19 17:00:18 979

原创 Hadoop之MapReduce实现原理-编程模型篇

一、编程模型概述1. MR接口体系结构2. 序列化3. Reporter参数4. 回调机制二、API解析1. 作业配置与提交1. 配置文件介绍2. MR作业配置与提交1. getSplits()方法2. createRecordReader()方法4. Mapper与Reducer。

2023-05-08 15:41:11 559

原创 Hadoop之MapReduce实现原理-基础篇

Task分为MapTask和ReduceTask,HDFS是以固定大小的block为单位存储数据,而MR是以split为单位处理数据,block是物理概念,split是逻辑概念,split只包含一些元数据信息,比如数据起始位置、数据长度、数据所在节点等,split的划分方法是用户自己决定的,但是split的数目决定了MapTask的数目,每个split会交由一个MapTask处理。待所有Task执行完毕后,整个作业执行成功。

2023-05-04 18:00:54 1787 2

原创 Hive分析函数详解:GROUPING SETS/CUBE/ROLLUP

cube和rollup的区别是CUBE会根据指定列进行所有组合,rollup会根据顺序从左到右进行组合可以使用grouping进行空值判断可以使用grouping__id进行粒度区分。

2023-04-18 10:28:57 1216 1

原创 Hive3.x集成Tez和Tez-ui详细步骤

执行任务并访问yarn的Tracking ui 将自动跳转到tez-ui。,注意文件夹名称的变化,上面我重命名过!编辑mapred-site.xml文件,并添加如下配置。我这里使用0.10.1版本,并上传到指定目录。将configs.env的权限改成777。在hive/conf文件夹下。

2023-04-17 09:59:46 1125 1

原创 Vmware扩容centos7虚拟机磁盘步骤

用vmware搭建了个测试环境,随着测试数据的增加,磁盘不够了,所以需要进行扩容

2023-04-07 18:03:57 437 1

原创 Hive调优汇总

第一个MR Job中,Map的输出结果会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;2、文件的数量决定了MapReduce中Mapper数量,小文件越多,Mapper的任务越多,每个Mapper都会对应启动一个JVM来运行,每个Mapper执行数据很少、个数多,导致占用资源多,甚至这些任务的初始化可能比执行的时间还要多,严重影响性能;值为 + 正序排序,值为 - 倒序排序;

2023-04-07 09:34:35 1063

原创 MySQL调优之常见参数说明

在使用MySQL时DBA经常会对一些参数进行设置,从而提高服务器性能,对开发来说,这些设置也能够提升查询速度,是从服务参数方向进行设置的。所有的配置数据其实并不是越大越好,而是要根据实际情况进行调整,比如对内存的一些调整,如果过大会造成服务崩溃,所以实际在设置的时候应该是监控服务运行状态进行合理的调整。在参数调整后应该进行一段时间的监控,而不是应用能起来就可以了,可能在运行一段时间后程序才会出问题,所以在这块的优化应该适当的调整。

2023-04-04 15:45:49 644

原创 MySQL调优之查询优化

在很多应用场景中我们需要将数据进行分页,一般会使用limit加上偏移量的方法实现,同时加上合适的orderby 的子句,如果这种方式有索引的帮助,效率通常不错,否则的化需要进行大量的文件排序操作,还有一种情况,当偏移量非常大的时候,前面的大部分数据都会被抛弃,这样的代价太高。当表A和表B使用列C关联的时候,如果优化器的关联顺序是B、A,那么就不需要再B表的对应列上建上索引,没有用到的索引只会带来额外的负担,一般情况下来说,只需要在关联顺序中的第二个表的相应列上创建索引。

2023-04-04 09:18:21 639

原创 Mysql调优之索引优化

索引是为了加速对表中数据行的检索而创建的一种分散的存储结构。索引是针对表而建立的,它是由数据页面以外的索引页面组成的,每个索引页面中的行都会含有逻辑指针,以便加速检索物理数据。

2023-04-03 19:36:40 706

原创 【创作赢红包】Mysql调优之执行计划

官方地址:官方描述:解释:EXPLAIN语句提供关于MySQL如何执行语句的信息。EXPLAIN与SELECT、DELETE、INSERT、REPLACE和UPDATE语句一起工作。EXPLAIN为SELECT语句中使用的每个表返回一行信息。它在输出中按照MySQL在处理该语句时读取表的顺序列出表。这意味着MySQL从第一个表中读取一条记录,然后在第二个表中找到匹配的记录,然后在第三个表中,以此类推。

2023-03-31 18:37:26 182

原创 Mysql调优之Schema与数据类型优化、范式、主键

应该尽量使用可以正确存储数据的最小数据类型,更小的数据类型通常更快,因为它们占用更少的磁盘、内存和CPU缓存,并且处理时需要的CPU周期更少,但是要确保没有低估需要存储的值的范围,如果无法确认哪个数据类型,就选择你认为不会超过范围的最小类型。整型比字符操作代价更低,因为字符集和校对规则是字符比较比整型比较更复杂。使用mysql自建类型而不是字符串来存储日期和时间。NULL列对mysql来说很难优化,会使得索引、索引统计和值比较都更加复杂,但是改为not null带来的性能提升比较小,可以忽略。

2023-03-31 16:59:26 104

原创 Mysql调优之性能监控工具详解

show profile 是查询剖析工具,默认是关闭的,需要手动开启,开启后我们可以根据执行sql的query_id来进行查看内存、cpu、数据块块io、swaps次数等信息,方便我们对代码进行调优。上面使用的是ALL参数,可以查看所有信息,profile提供了以下参数供我们来查看具体的信息:type类型如下:all:显示所有性能信息block io:显示块io操作的次数context switches:显示上下文切换次数,被动和主动cpu:显示用户cpu时间、系统cpu时间。

2023-03-31 11:51:22 1500

原创 RestTemplate异常后无法自定义异常处理器

在开发一些数据采集工具的时候使用了RestTemplate进行数据采集,使用过程中发现调用第三方API返回非200状态码的时候会报错,处理方法有两种,第一种:使用自定义异常处理器进行处理,第二种:在catch异常模块对异常使用instanceof判断异常类型,然后获取异常信息。

2023-03-30 18:53:42 436

原创 Springboot工具类中使用Mapper或Service

背景:在开发过程中,我们有一个API数据采集工具,需要通过HttpClient调用第三方API获取数据,因此封装了一个工具类,在工具类中我们需要加入获取失败的数据,然后将这条记录入库,以供后面通过对数据库做数据质量监控来排查异常信息。

2023-03-30 16:56:08 944

Mysql测试数据 Mysql测试数据 Mysql测试数据

Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。Mysql测试数据。

2023-03-26

leetcode题目精选

leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题leetcode题目精选,JAVA算法刷题,算法题

2023-03-15

JAVA设计模式教程,程序员必备,从浅入深

JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,从浅入深JAVA设计模式教程,程序员必备,

2023-03-15

springcloud汇总知识点,从零到精通

springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点,从零到精通springcloud汇总知识点

2023-03-15

CDGA思维导图图片!!! 重点知识点

CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点CDGA思维导图图片!!! 重点知识点

2023-03-14

Flink知识点总结文档

Flink的世界观是数据流对 Flink ⽽⾔,其所要处理的主要场景就是流数据,批数据只是流数据的⼀个极限特例⽽已,所以 Flink也是⼀款真正的流批统⼀的计算引擎。自 2019 年 1 月起,阿里巴巴逐步将内部维护的 Blink 回馈给 Flink 开源社区,目前贡献代码数量已超 过 100 万行。国内包括腾讯、百度、字节跳动等公司,国外包括 Uber、Netflix 等公司都是 Flink 的使用者。1、同时支持高吞吐、低延迟、高性能 2、支持事件时间(Event Time)概念,结合Watermark处理乱序数据 3、支持有状态计算,并且支持多种状态 内存、文件、RocksDB 4、支持高度灵活的窗口(Window)操作 time、count、session 5、基于轻量级分布式快照(CheckPoint)实现的容错 保证exactly-once语义 6、基于JVM实现独立的内存管理 7、Save Points(保存点) Flink系统架构中包含了两个角色,分别是JobManager和TaskManager,是一个典型的Master-Slave架 构。JobManager相当于是

2023-03-14

日期维表生成结果,日期对应年、月、对应自然周起止日期等维度

日期(YYYYMMDD格式)20201229 日期(YYYY-MM-DD格式)2020/12/29 日期(时间戳格式)1609171200 日期对应年(如2018)2020 日期对应月份(如201801)202012 日期对应周号(自然年中的第几周)53 对应自然周日期2 自然周起始日期(YYYYMMDD格式)20201228 自然周起始日期(YYYY-MM-DD格式)2020/12/28 自然周起始日期(时间戳格式)1609084800 自然周结束日期(YYYYMMDD格式)20210103 自然周结束日期(YYYY-MM-DD格式)2021/1/3 自然周结束日期(时间戳格式)1609603200 日期对应自然月起始日期20201201 日期对应自然月起始日期(YYYY-MM-DD格式)2020/12/1 日期对应自然月起始日期(时间戳格式)1606752000 日期对应自然月底日期(YYYYMMDD格式)20201231 日期对应自然月底日期(YYYY-MM-DD格式)2020/12/31 日期对应自然月底日期(时间戳格式)1609344000 日期对应下月月初日期2021010

2023-03-11

DAMA语境关系图汇总总结

DAMA语境关系图汇总总结,CDGA、CDGP学习使用,包括数据治理过程中丰富的方法论,理论加实践会解决很多数据治理过程中的问题,其中包括如下模块的语境关系图的汇总: 数据治理(Data Governance) 数据架构(Data Architecture) 数据建模和设计(Data Modeling and Design) 数据存储和操作(Data Storage and Operations) 数据安全(Data Security) 数据集成和互操作(Data Integration and Interoperability) 文档和内容管理(Document and Content Management) 参考数据和主数据管理(Reference and Master Data Management) 数据仓库和商务智能(Data Warehousing and Business Intelligence) 元数据管理(Metadata Management) 数据质量管理(Data Quality Management)

2023-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除