自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(221)
  • 收藏
  • 关注

原创 DAMA学习笔记(十六)- 数据管理和组织变革管理

成功的数据管理实践需要:1)根据信息价值链调整数据责任制度,以此来学习横向管理。2)将垂直的(筒仓)数据责任制度转变为共享的信息管理工作。3)将局部业务关注点或 IT 部门工作中的信息质量演变为整个组织的核心价值。4)将对信息质量的思考从“数据清洗与数据质量记分卡”提升转变为组织的基本能力。5)对不良数据管理引发的代价和规范化数据管理带来的价值进行衡量。实施成功的组织变革要了解: 1)为什么变革会失败。2)有效变革的触发因素。3)变革的障碍。4)人们是如何经历变革过程的。1)组织不变革,人就变。

2024-08-15 00:29:16 606

原创 DAMA学习笔记(十五)-数据管理组织与角色期望

数据管理和数据治理组织需要足够灵活,才能在不断发展的环境中有效地工作。意识、所有权和问责制度是激励和吸引人们参加数据管理积极性、政策和流程的关键。如何了解组织的企业文化、运营模式和人员:1)数据在组织中的作用。数据驱动的关键流程是什么?如何定义和理解数据需求?数据在组织战略中扮演的角色如何?2)关于数据的文化规范。实施或改进管理和治理结构时,是否存在潜在的文化障碍?3)数据管理和数据治理实践。如何以及由谁来执行与数据相关的工作?如何以及由谁来做出有关数据的决策?4)如何组织和执行工作。

2024-08-14 00:01:37 735

原创 DAMA学习笔记(十四)-数据管理成熟度评估

驱动因素必须以目标的形式进行阐明,描述评估的影响范围和重点。管理人员和业务部门必须清楚地了解评估的目标,以确保其与组织的战略方向保持一致。评估目标还需要提供一些标准,包括采用哪种评估模型、哪些业务领域需要优先评估、由谁提供直接的输入等。虽然大多数DMM框架的设计都适用于整个企业范围,但在整个企业范围实施可能是不切实际的。对于第一次评估,最好定义一个可控的范围,如单个业务领域或项目。所选领域是该组织的一个有意义的子集模块,参与者应是可以影响关键业务流程的人,这些关键的业务流程会对数据资产产生影响。

2024-08-13 21:12:04 1130

原创 DAMA学习笔记(十三)-大数据和数据科学

组织的大数据战略需要与其整体业务战略和业务需求保持一致并提供支持,并成为其数据战略的一部分。1)组织试图解决什么问题,需要分析什么。2)要使用或获取的数据源是什么。3)提供数据的及时性和范围。4)对其他数据结构的影响以及与其他数据结构的相关性。5)对现有建模数据的影响。组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)。数据黏度大(Viscosity)。

2024-08-10 00:32:10 1410

原创 DAMA学习笔记(十二)-数据质量

1)“高质量数据”是什么意思?2)低质量数据对业务运营和战略的影响是什么?3)更高质量的数据如何赋能业务战略?4)数据质量改进需要哪些优先事项的推动?5)对低质量数据的容忍度是多少?6)为支持数据质量改进而实施的治理是什么?7)配套实施的治理结构是什么?1)了解业务战略和目标。2)与利益相关方面谈,以识别痛点、风险和业务驱动因素。3)通过资料收集和其他剖析形式直接评估数据。4)记录业务流程中的数据依赖关系。5)记录业务流程的技术架构和系统支持。数据质量优先级必须与业务战略一致。

2024-08-08 23:11:10 1076

原创 DAMA学习笔记(十一)-元数据管理

元数据战略包括定义组织元数据架构蓝图和与战略目标匹配的实施步骤。1)启动元数据战略计划。启动和计划的目的是保证元数据战略团 队可以定义出短期和长期目标。关键利益相关方应参与计划制订。2)组织关键利益相关方的访谈。通过对业务人员和技术人员的访 谈,可以得到元数据战略的基础知识。3)评估现有的元数据资源和信息架构。评估确定解决元数据和系统问题的难度,对关键IT员工做进一步访谈,审查系统架构、数据模型等文档。4)开发未来的元数据架构。

2024-08-06 23:37:59 917

原创 DAMA学习笔记(十)-数据仓库与商务智能

数据仓库/商务智能架构应该描述数据从哪里来、到哪里去、什么时候去、为什么要去,以及用什么样的方式流入数据仓库。数据仓库(Data Warehouse,DW)与商务智能(Business Inteligence,BI)作为业务决策主要驱动力协同发展。数据仓库赋能组织将不同来源的数据整合到公共的数据模型,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。业务驱动因素:运营支持职能、合规需求(历史数据响应)和商务智能活动(主因: 提供洞察、提升效率、增强竞争优势。

2024-08-05 00:45:37 1170

原创 DAMA学习笔记(九)-参考数据和主数据

1)满足组织数据需求。共同数据集的完整、最新、一致的。2) 管理数据质量。管控至关重要实体的数据质量。3)管理数据集成的成本。4)降低风险。满足需求管控质量管控成本降低风险1)通过使用一致的参考数据,满足多个项目的数据需求,降低数据整合的风险和成本。2)提升参考数据的质量。降本提质目标:1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据。3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。

2024-08-02 08:41:30 977

原创 DAMA学习笔记(八)-文件和内容管理

用户必须以系统检索机制能够理解的形式提交他们的需求,以便从这些系统中获取信息。同样, 需要一种检索机制,以支持快速识别匹配的数据和信息格式描述/索引文件、结构化和非结构化数据的目录。基于用户的需求和偏好,索引的设计侧重于索引的关键或属性的决策选项。数据管理专业人员应该确保构建受控词汇表、索引、信息检索分类方案工作的互相协调, 满足用户的需求。文件和内容管理:是针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。重点在于保持完整性,确保可访问。

2024-07-30 08:13:50 642

原创 DAMA学习笔记(七)-数据集成和互操作

理解组织的业务目标,以及为实现这些目标而需要的数据和建议的技术方案。收集这些数据的相关法律或法规, 防止因为数据内容的原因使得某些活动无法进行。考虑有关数据保留和数据生命周期其他部分的组织策略。数据保留的要求通常因数据域和类型而异。数据集成和生命周期需求通常由业务分析师、数据管理专员和具有各种职能的架构师(包括IT)定义, 同时希望以特定的格式在特定的位置获取数据,并与其他数据集成。根据需求确定数据集成和互操作交互模型的类型,然后确定满足需求所需的技术和服务。

2024-07-24 17:28:37 945

原创 DAMA学习笔记(六)-数据安全

制度提供行为准则,但并不能列出所有可能的意外情况。细则是对制度的补充,并提供有关如何满足制度意图的其他详细信息。定义数据保密等级– 保密等级分类是重要的元数据特征,用于指导用户如何获得访问权限。eg:绝密。定义数据监管类别– 安全分级和监管分类的一项关键原则是,大多数信息可以聚合,从而使其具有更高或更低的敏感性。定义安全角色– 数据访问控制可根据需要在单个用户级或组织级中进行管理(按小组授权)。构(从用户开始)。角色分配矩阵 – 基于数据机密性、法规和用户功能,矩阵可用于映射数据的访问角色。

2024-07-16 23:52:14 907

原创 DAMA学习笔记(五)-数据存储和操作

定义:管理数据存储的设计、实现和支持活动,以实现其最大化价值。数据存储与操作的目标:1 贯穿整个数据生命周期,管理数据的可用性。2 确保数据资产的完整性。3 管理数据交易的性能。活动管理数据库技术(理解数据技术。评估数据库技术。管理和监控数据库技术)。管理数据库操作(理解需求。规划业务连续性。创建数据库实例。管理数据库性能。管理测试数据集。管理数据迁移)。数据架构。数据需求。数据模型。服务级别协议。数据库技术评估标准。数据库环境。迁移/复制/多版本数据。业务连续规划。

2024-07-12 23:24:50 985 1

原创 DAMA学习笔记(四)-数据建模与设计

实体、属性和关系的定义对于维护数据模型的精度至关重要发现、分析和确定数据需求的过程, 用数据模型的精确形式表示和传递这些数据需求。常见6中数据模型:关系模式、多维模式、面向对象模式、事实模式、时间序列模式、NoSQL模式。根据描述详细成都不同, 分为: 概念模型、逻辑模型以及物理模型。1) 提供有关数据的通用词汇表2) 获取、记录组织内数据和系统的详细信息。3)在项目中作为主要的交流沟通工具。4)提供了应用定制、整合,甚至替换的起点。

2024-07-06 23:52:08 844

原创 DAMA学习笔记(三)-数据架构

对组织要素有组织的设计, 旨在优化整个结构或者系统的功能、性能、可行性、成本和用户体验。在组织不同范围、不同层级展开, 负责将难以理解的东西定义明确清晰。企业架构: 业务架构、数据架构、应用架构以及技术架构等。有效地管理数据以及有效管理存储和使用数据的系统。数据架构的基本组成部分:1) 数据架构成果不同层级的模型、定义、数据流(数据架构构件2) 数据架构活动用于形成、部署和实现数据架构的目标。3) 数据架构行为影响数据企业数据架构不同角色之间的协作、思维方式和技能。数据架构是数据管理的基础。

2024-06-28 08:43:14 1174

原创 DAMA学习笔记(二)-数据治理

数据对组织的价值。如果一个组织出售数据,显然数据治理具有巨大的业务影响力。业务模式。分散式与集中式、本地化与国际化等是影响业务发生方式以及如何定义数据治理运营模式的因素。文化因素。开展治理战略需要提倡一种与组织文化相适应的运营模式,同时持续地进行变革。监管影响。与受监管程度较低的组织相比,受监管程度较高的组织具有不同的数据治理心态和运营模式数据治理层通常作为整体解决方案的一部分。这意味着确定管理活动职责范围、谁拥有数据等。

2024-06-19 23:07:32 1417

原创 Java基础知识(四) -- 数组

内存是计算机中重要的部件之一,它是与CPU进行沟通的桥梁。其作用是用于暂时存放CPU中的运算数据,以及与硬盘等外部存储器交换的数据。计算机在运行中,CPU就会把需要运算的数据调到内存中进行运算,当运算完成后CPU再将结果传送出来。我们编写的程序是存放在硬盘中的,在硬盘中的程序是不会运行的,必须放进内存中才能运行,运行完毕后会清空内存。Java虚拟机要运行程序,必须要对内存进行空间的分配和管理。区域名称作用程序计数器程序计数器是CPU中的寄存器,它包含每一个线程下一条要执行的指令的地址本地方法栈。

2024-06-10 22:44:37 626

原创 DAMA学习笔记(一)-数据管理

数据管理: 为了交付、控制、保护以及提升数据和信息资产的价值, 在其整个生命周期中制订计划、制度、规程和实践活动, 并执行和监督的过程。从事数据管理各方面的工作(数据全生命周期的技术管理工作, 确保数据的合理利用和发挥作用), 高级技术人员(程序员、数据库管理人员、网络管理员) 和 战略业务人员(数据管理专员、数据策略师、首席数据官)数据管理的目标: 满足自己和利益方的需求;确保数据的完整性、质量、隐私和保密性;防止数据和信息被不当使用;数据有效服务企业增值目标数据: 信息的原材料。在上下文语境中的数据。

2024-06-10 12:12:45 1310

原创 Java基础知识(三) -- 流程控制

基本的流程控制结构:分支结构和循环结构。分支结构:if、if-else、if-else if-else if-…else、switch循环结构:while、do…while、for 循环控制语句:break(跳出循环结束本次循环,继续下一次循环。

2024-05-02 22:42:15 1063 3

原创 Maven的使用

Maven项目:确定目录结构、pom.xml、主程序以及测试程序通过一个Maven 的入门案例熟悉Maven的使用。

2024-04-30 16:17:42 1120 1

原创 Java基础知识(二) -- 数据类型转换与运算符

计算机数据的存储使用二进制补码形式存储,并且最高位是符号位,1是负数,0是正数。正数的三码合一,负数的原码=十进制转换为二进制;高位为-1,负数的反码=在原码的基础上按位取反, 负数的补码=负数的补码+1。基本数据类型转换:自动类型转换(小->大) + 强制类型转换(大 -> 小)。运算符:算数运算符、赋值运算符、关系运算符、逻辑运算符、条件运算符以及位运算符。

2024-04-28 23:53:44 698

原创 正则表达式

如果两种前面的情况都不存在,则 *是反向引用,后面跟有字符。

2024-04-28 15:16:51 624

原创 Spring6概述

经过十多年的发展,Spring 已经不再是一个单纯的应用框架,而是逐渐发展成为一个由多个不同子项目(模块)组成的成熟技术,例如 Spring Framework、Spring MVC、SpringBoot、Spring Cloud、Spring Data、Spring Security 等,其中 Spring Framework 是其他子项目的基础。上图中包含了 Spring 框架的所有模块,这些模块可以满足一切企业级应用开发的需求,在开发过程中可以根据需求有选择性地使用所需要的模块。

2024-04-25 21:30:33 604

原创 初识Maven

Maven是一款自动化构建工具,专注服务于Java平台的项目构建和依赖管理。Maven 可以解决 Jar包以及依赖Jar的引入以及解决Jar 包之间的冲突。

2024-04-24 23:40:20 629

原创 Java基础知识(一)-- 数据类型、常量与变量

/ 定义字节型变量// 定义短整型变量// 定义整型变量// 定义长整型变量// 定义单精度浮点型变量// 定义双精度浮点型变量// 定义布尔型变量// 定义字符型变量// 定义字符串变量long类型:如果赋值的常量整数超过int范围,那么需要在数字后面加L。float类型:如果赋值为常量小数,那么需要在小数后面加F。char类型:使用单引号’’String类型:使用双引号""

2024-04-24 16:37:40 366

原创 Java并发编程(一) -- 基本概念

单核 cpu 下,线程实际还是串行执行的。操作系统中有一个组件叫做任务调度器,将 cpu 的时间片(windows 下时间片最小约为 15 毫秒)分给不同的程序使用,只是由于 cpu 在线程间(时间片很短)的切换非常快,人类感觉是同时运行的。总结就是:微观串行,宏观并行一般会将这种线程轮流使用 CPU的做法称为并发, concurrent多核 cpu下,每个核(core)都可以调度运行线程,这时候线程可以是并行的。

2024-04-23 13:01:35 384

原创 常见的数据抽取工具对比

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是数据仓库的生命线。抽取(Extract主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。转换(transform。

2024-04-22 16:49:46 2159

原创 Kafka基本架构

Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。(传统使用)Kafka是一个开源的分布式事件流平台(event streaming platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。

2024-04-22 13:11:27 741

原创 Flink Job提交分析

1.概述  Flink 应用程序的提交方式为:打成jar包,通过 flink 命令来进行提交。 flink 命令脚本的底层是通过 java 命令启动:CliFrontend 类 来启动 JVM 进程,执行任务的构造和提交。flink run xxx.jar class arg1 arg2flink.sh 脚本:## flink.shtarget="$0"# For the case, the executable has been directly symlinked, figure out

2024-04-22 12:43:30 1044 1

原创 Java中的BIO、NIO与AIO

I/O模型简单的理解:就是用什么样的通道进行数据的发送和接收,很大程度上决定了程序通信的性能。Java共支持3种网络编程模型I/OBIONIOAIO。

2024-04-22 02:46:03 658 1

原创 Flink Graph演变

Flink 集群中运行的 Job,最终归根到底:还是构建一个高效能分布式并行执行的DAG执行图。StreamGraph ==> JobGraph ==> ExecutionGraph ==> 物理执行图。根据用户通过Stream API 编写的代码生成最初的图,用来表示程序的拓扑结构。StreamGraph 经过优化之后生成了 JobGraph,提交给 JobManager 的数据结构。

2024-04-19 00:09:02 792 1

原创 Jackson解析Json数据

Jackson和 FastJson 一样,是一个 Java 语言编写的,可以进行 JSON 处理的开源工具库,Jackson 的使用非常广泛,Spring 框架默认使用 Jackson 进行 JSON 处理。Jackson 有三个核包,分别是,通过这些包可以方便的对 JSON 进行操作。Streaming在模块。定义了一些流处理相关的 API 以及特定的 JSON 实现。在模块,包含了 Jackson 中的注解。Databind在模块, 在Streaming包的基础上实现了数据绑定,依赖于。

2024-04-10 14:32:48 1256

原创 初识Java中的NIO

Java NIO 全称java non-blocking IO ,是指 JDK 提供的新 API。从 JDK1.4 开始,Java 提供了一系列改进的输入/输出新特性,被统称为 NIO(即 New IO),是同步非阻塞的。NIO采用内存映射文件的方式来处理输入输出,NIO将文件或文件的一段区域映射到内存中,这样就可以像访问内存一样访问文件。NIO与原来的IO有同样的作用,但是使用的方式完全不同, NIO支持面向缓冲区的、基于通道的IO操作。NIO将以更加高效的方式进行文件的读写操作。

2024-04-07 17:04:13 1143

原创 Flink集群从节点TaskManager启动分析(standalone)

TaskManager 是 Flink 集群的工作进程,执行数据流的具体计算,称之为"Worker"。Flink集群必须至少有一个TaskManager;每一个TaskManager都包含了一定数量的任务槽(task slots)。Slot是资源调度的最小单位,slot的数量限制了TaskManager能够并行处理的任务数量。启动之后,TaskManager会向资源管理器注册它的slots;

2024-04-01 22:52:25 1344

原创 Flink集群主节点JobManager启动分析(standalone模式)

Flink集群的资源管理器,负责slot的管理和申请工作。Dispatcher负责接收客户端提交的 JobGraph,随后启动一个Jobmanager,类似 Yarn中的ApplicationMaster角色,类似Spark中的Driver角色。JobManager负责一个具体job的执行,在Flink集群中,可能会有多个JobManager 同时执行,job的主控层序。

2024-03-29 01:12:46 706

原创 Flink集群启动脚本分析(standalone模式)

1.概述  Flink 集群的启动脚本在:flink-dist 子项目中,位于 flink-bin 下的 bin 目录:启动脚本为:start-cluster.sh。flink-bin 目录管理的是集群运维需要的shell脚本。2.启动脚本2.1 start-cluster.sh调用 config.sh 来获取 masters 和 workers,masters 的信息(从 conf/masters 配置文件中获取)通过 jobmanager.sh 来启动 JobManager

2024-03-28 17:04:37 819

原创 Flink RPC初探

RPC( Remote Procedure Call ) 的主要功能目标是让构建分布式计算(应用)更容易,在提供强大的远程调用能力时不损失本地调用的语义简洁性。为实现该目标,RPC 框架需提供一种透明调用机制让使用者不必显式的区分本地调用和远程调用。总而言之:RPC是为了解决分布式系统中,各个服务中的调用问题,在进行远程调用时,也像本地调用一样方便,让调用者感知不到远程调用的逻辑。技术组件RPC实现HDFSNettyHBase。

2024-03-28 16:30:30 1641

转载 Hive中count(distinct)优化

hive.groupby.skewindata 对 count(distinct) 的优化是有限制的,当 hive.groupby.skewindata = true 时,SQL只能对一个列进行 count(distinct)其实这很容易理解,在刚刚的手动优化过程中,能够很容易发现,这个方法不能同时对多个列进行 去重+计数 得出各自的 count(distinct) 值主要原因:无法在某一个维度里,同时对多个列进行去重。

2024-03-15 23:35:11 558

原创 Hive中的explode函数、posexplode函数与later view函数

在离线数仓处理通过HQL业务数据时,经常会遇到行转列或者列转行之类的操作,就像concat_ws之类的函数被广泛使用,今天这个也是经常要使用的拓展方法。

2024-03-15 22:54:27 4131

原创 MapReduce的原理分析

MapReduce的思想核心是“分而治之,先分再合”,适用于大量复杂任务处理场景(大规模数据处理场景)。map阶段(分):如果任何可以拆分并且没有依赖,那么就把复杂的任务拆分成小任务,拆分成小任务之后,可以并行计算,提高处理效率。reduce阶段(合):把map阶段的各个局部结果进行全局汇总,得到最终的结果生活中的MapReduce案例:统计图书馆的书籍总数“Map”:你数1号书架,我数2号书架。我们人越多,数书就更快。“Reduce”:我们到一起,把所有人的统计数加在一起。

2024-03-15 15:14:29 1617 1

原创 Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数

concat用于连接字符串。concat_ws用于按照指定的分隔符连接字符串。与group by和concat_ws一起使用可以实现"列转行。

2024-03-14 17:43:34 2938

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除