自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 HDFS如何保证数据不丢失 ?

通过这些机制,HDFS能够在面对硬件故障、网络问题和其他常见故障时,保护数据不丢失,确保数据的高可用性和可靠性。

2024-09-12 09:54:24 453

原创 SQL优化 20 连击,建议收藏!

复合索引也称为联合索引,当我们创建一个联合索引的时候,如(k1,k2,k3),相当于创建了(k1)、(k1,k2)和(k1,k2,k3)三个索引,这就是最左匹配原则。如果字段的大小有变化,应用就会受到影响,因为它必须修改字段宽度。默认新增SQL有事务控制,导致每条都需要事务开启和事务提交,而批量处理是一次事务开启和提交,效率提升明显,达到一定量级,效果显著,平时看不出来。列经常被修改,而且每次被修改的数据的长度不同,这会引起“行迁移”现象,而这造成多余的I/O,是数据库设计中要尽力避免的,这种情况下用。

2024-08-28 11:29:23 873

原创 数据治理体系八大要素的全方位解读(数据标准、主数据、数据质量、元数据管理、数据服务、数据血缘等9大方向+附案例+相关资料下载)

通过上述九大关键要素,构建了一个全面且高效的数据治理体系,不仅提升了数据的可用性和价值,也为企业的数字化转型提供了坚实的基础。通过持续优化和升级,企业能够更好地利用数据驱动决策,实现业务创新、增长与数据资产价值最大化。元数据管理通过元数据注册、检索和维护,确保数据的可发现性和可理解性。数据标准定义了数据的一致性和可互操作性,确保数据的准确性和可比较性,元数据是对数据的数据,用于描述数据的属性和背景。数据安全措施确保数据的机密性、完整性和可用性,数据血缘记录数据的生成、处理和使用的历程,

2024-08-26 11:13:38 381

原创 【2024.7.27】 数据分析学习

流程拆解法、二分法、象限拆解法、杜邦分析法、AARRR、pest、rfm、swot、5w1h(拆解只要符合mece法则即可)—实验目标、实验假设、实验打分、实验指标、实验观众、实验版本、开发验收、实验结果、实验分析、后续计划。—储存数据:各类类型的数据库-hive、mysql、presto、impala(数据工程师)—研究关系:可视化查看相关性、建模推导相关性四、实验-提出假设,然后验证假设。—观测到差评率飙升、假设由恶劣天气引起、通过天气数据验证假设。观察:采集数据、储存数据、展示数据。

2024-07-27 15:42:52 484

原创 【2024.7.24】 java学习

将较大的数据类型转换为较小的数据类型。类型,其他操作数将被转换为。类型,其他操作数将被转换为。类型,其他操作数将被转换为。否则,所有操作数将被转换为。将字符类型转换为数值类型。否则,如果任何操作数是。否则,如果任何操作数是。将浮点数转换为整数。

2024-07-24 16:41:45 177

原创 【2024.7.24】 大规模数据处理实战(极客时间)

用户注册,入库,合并模式购买机票,分为查询机票和购买 查询机票,读取特定机票,过滤模式购买机票,将所有渠道的票和合并起来,合并模式24小时提醒,过滤出这班航班的机票,过滤模式 发送短信和电子邮箱,复制模式之后,进行分类模式发送这几个模式就是sql的几个operator吗?复制 → subquery过滤 → where分离 → group by合并 → join。

2024-07-24 14:11:47 264

原创 【2024.7.23】scala 学习笔记

3、scala没有++和-- ,但是可以通过+=和-=来实现这个功能。2、负数补码:符号位不变,其他位按位取反+1。注:val不可变,var可以修改变量值;字符串要用"",不能用''声明的时候必须要赋值;

2024-07-23 15:28:06 92

原创 【2024.7.22】 华为数据之道 读书记录

非数字原生企业在成立之时,基本都是以物理世界为中心来构建的。

2024-07-22 19:30:00 108

原创 【2024.7.19】 数据治理的一些东西

数据治理”即建立在数据存储、访问、验证、保护和使用之上的一系列程序、标准、角色和指标,以期通过持续的评估、指导和监督,确保富有成效且高效的数据利用,促进跨组织协作和结构化决策,为企业创造价值。

2024-07-19 20:30:00 1749

原创 【2024.7.18】Doris的一些记录

可以理解为Doris的管理节点,主要负责用户请求的接入、查询计划的解析、元数据的存储和集群管理相关工作;,主要负责数据存储、查询计划的执行。这两类进程都是可以横向扩展的。除此之外,Doris不依赖任何第三方系统(如HDFS、Zookeeper等)。这种高度集成的架构设计极大地降低了运维成本。FE节点包含Leader、Follower和Observer三种角色默认一个集群只能有一个Leader,可以有多个Follower和Observer。

2024-07-18 17:20:45 704

原创 【2024.7.18】 数仓规范

搜了一下阿里的大数据之路,没有衍生指标的概念。发行稿,从大面上应该不会有啥问题,但细节上可能会有考虑不周的情况,在宣讲阶段、执行阶段遇到问题阻碍的时候,应该根据实际情况对规范做出调整,唯有经过实践检验才能愈发完善,相信经过一段时间的持续实践,规范会成为组织文化的一部分,进而降低沟通成本、提高开发效率、保证交付质量,从而实现团队和个人的双赢。按照业务或业务过程划分:比如一个靠销售广告位置的门户网站主题域可能会有广告域,客户域等,而广告域可能就会有广告的库存,销售分析、内部投放分析等主题。

2024-07-18 10:23:14 982

原创 【2024.7.18】 数据中台知识体系

来数据仓库的主要场景是支持管理决策和业务分析,而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节,不限于决策分析类场景。数据中台持续不断地将数据进行资产化、价值化并应用到业务,而且关注数据价值的运营。数据中台建设包含数据体系建设,也就是数据中台包含数据仓库的完整内容,数据中台将企业数据仓库建设的投入价值进行最大化,以加快数据赋能业务的速度,为业务提供速度更快、更多样的数据服务。数据中台也可以将已建好的数据仓库当成数据源,对接已有数据建设成果,避免重复建设。

2024-07-18 10:07:17 2016

原创 【2024.7.17】 阿里巴巴数据治理平台建设经验

任务调度随着规模增大经常挂掉,不稳定,集群计算资源不足;数据使用人员多,管理与易用难以平衡;数据出口多,人为泄露行为管控难;法规不断更新,敏感数据发现难,数据分类分级难度高。表数量越来越多,找不到需要的数据;缺少数据规范与标准,每次使用都要沟通;数据需求经常变更,数仓人员压力巨大。数据建模、数据集成、数据开发、数据运维、数据资产、数据治理、数据质量、数据安全、数据分析、数据服务。降本成为大趋势,技术挑战大;数据不敢删、任务不敢下。全链路数据开发治理平台。等数据处理全链路流程。6、数据成本不断增长。

2024-07-18 08:08:15 537

原创 【2024.7.17】 指标拆解

2024-07-17 22:15:06 218

原创 【2024.7.17】大数据 - 建模方法

雪花模型:基于星型模型的拓展,维表下还能有维表,维护成本较高,且性能不太好,适用于多对多的场景。结构组织数据,便于与传统数据库对接。维度建模:采用星型或者雪花结构组织数据,核心事实表和维度表之间体现多对一的关系。星座模型:多张事实表共享维表。星型模型:维度只有一个层级。

2024-07-17 21:53:39 355

原创 万字详解数仓分层设计架构 ODS-DWD-DWS-ADS

数据仓库层(DW)层:数据仓库层是我们在做数据仓库时要核心设计的一层,本层将从 ODS 层中获得的数据按照主题建立各种数据模型,每一个主题对应一个宏观的分析领域,数据仓库层排除对决策无用的数据,提供特定主题的简明视图。以宽表化手段物理化模型,构建命名规范、口径一致的统计指标,为上层提供公共指标,建立汇总宽表、明细事实表。维度层(DIM,Dimension):以维度作为建模驱动,基于每个维度的业务含义,通过添加维度属性、关联维度等定义计算逻辑,完成属性定义的过程并建立一致的数据分析维表。

2024-06-25 21:24:21 1158

原创 1、连续登录3天以上的用户(字节面试题)

原始数据最终SQLfrom test)a)b。

2024-06-14 17:01:27 126

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除