「已注销」-CSDN博客

原创数据仓库建模

数仓建模不以规矩，不能成方圆。火车之所以能奔驰千里，是因为它始终离不开两条铁轨；风筝之所以能飞翔万尺，是因为它总是情系着手中的线；大江东流，日月交替，大自然生生不息，用规则演绎着生命的轨迹。先确认主题，然后是维度建模的四个步骤。

2024-05-26 13:33:25 1250

数据湖（Data Lake）是一种大数据存储架构，它允许存储大量不同类型和格式的数据，并支持用于数据分析和机器学习的高级查询和处理。数据湖是为了解决大数据场景下的遗留问题而产生的,为打破数据孤岛而诞生。数据湖的特点如下：灵活性。数据湖可以容纳不同类型和格式的数据，不需要先进行结构化处理，强调原始数据的存储和管理。分布式存储。通常使用分布式文件系统，如Hadoop或Amazon S3作为底层存储引擎，数据可以以原始格式存储，例如JSON、CSV或Parquet等。成本效益。

2024-05-19 23:09:25 1397

原创数据挖掘与数据分析

1、数据挖掘（Data Mining）数据挖掘是指对大规模数据进行分析，以发现其中潜在的模式、规律或关联性的过程。其目的在于从数据中提取有价值的信息，以支持决策制定、预测未来趋势等。数据挖掘涉及多种技术和方法，包括机器学习、统计分析、数据库技术等。2、数据分析（Data Analysis）数据分析是指对数据进行收集、清洗、转换和建模等处理，以获得对问题的洞察和理解的过程。数据分析旨在揭示数据背后的意义，为决策提供支持和指导。它可以采用多种统计和计算方法，如描述性统计、推断统计、预测分析等。

2024-04-20 21:01:09 4190 2

原创 Hbase Distcp

需要注意的是，distcp命令只会复制表的数据，不会复制表的结构。因此，在执行distcp之前，确保在目标HBase集群上创建了与源表结构相同的表。此外，如果源表包含任何的HBase过滤器或者复杂的结构，可能需要额外的处理来保证数据的完整性。但是，实际的map数可能会受到其他因素的影响，比如输入数据的大小、文件数量等。HBase中的distcp命令用于在不同的HBase集群之间复制表。确保源和目标HBase集群的连接参数正确配置，并且目标集群上已经准备好了要导入的表的空间。

2024-04-13 16:01:18 1054

原创指标体系~

指标是说明总体数量特征的概念及其数值的综合。针对某一具体事物或行为进行量化描述的数值。维度是指标的属性或者特征，同时也是指标的必要定语。时间维度从低层到高层包括日、周、月、季度、年度等。地区维度从低层到高层包括区/县、市、省、国家等。当然还可以根据自己业务需要重新定义和划分。准确性：一个指标最要的就是能否准确的进行统计，如果这点满足不了，其他一切免谈，否则只会搬起石头砸自己的脚。可比较性：是指有维度可比较，比如同期比较，不同地区比较，如果没有比较，指标也没有意义。

2024-03-30 10:21:58 571

原创数据管理体系之元数据管理

元数据（Meta Data），主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。业务元数据为管理层和业务分析人员服务，从业务角度描述数据，包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等，帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。技术元数据为开发和管理数据仓库的 IT 人员使用，它描述了与数据仓库开发、管理和维护相关的数据，包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。

2024-03-23 22:32:24 698

原创实时数仓~

Canal 是用java 开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前，Canal 主要支持了 MySQL 的 Binlog 解析，解析完成后才利用Canal Client 来处理获得的相关数据。（数据库同步需要阿里的Otter 中间件，基于Canal）。Canal 的工作原理，是把自己伪装成 Slave，假装从Master 复制数据MySQL 主从复制过程Master 主库将改变记录，写到二进制日志(Binary log)中。

2024-03-17 18:44:31 1004

原创 Spark读取hive表元数据异常

在ETL接入数据时，需要对表新增字段，因为表的特殊性质，存在实时接入更新三个月历史数据的情况，故该表的小文件很多，在通过hive增加字段的时候，spark没有立即生效，导致用hive命令修改元数据后, hive表的元数据信息和spark-SQL的schema不一致。考虑到之前执行refresh的时候有进行小文件合并，中间有杀掉小文件合并进程，有可能是影响了refresh，故再进行了小文件合并后又重新执行了refresh，才成功了，且最后一个是通过spark shell执行的。命令用于刷新表的元数据。

2024-03-10 21:37:04 1373

原创 StarRocks

单表上过多的物化视图会影响导入的效率：导入数据时，物化视图和 base 表数据是同步更新的，如果一张表的物化视图表超过10张，则有可能导致导入速度很慢。为适配不同的数据导入需求，StarRocks 系统提供了5种不同的导入方式，以支持不同的数据源（如HDFS、Kafka、本地文件等），或者按不同的方式（异步或同步）导入数据。f) 如果能用范围小的整数，就不要用范围大的类型，比如age 导购年龄，我们用户不会超过100，那么tinyint (-128 - 127）就是一个合理的选择。

2023-11-08 12:00:00 1475

原创 Clickhouse

我们有3个分片节点，有一张本地表t_data_local，共100W数据，那么节点1可能存储30W数据，节点2有20W数据，节点3有50W数据；另外有一张分布式表t_data关联到t_data_local。分布式表需要关联到本地表，本身不存储数据，实际上相当于一张分布式视图，在任意节点查询分布式表，clickhouse会把计算分发到各分片节点，汇总各节点的计算结果后返回全局结果。本地表指各个分片节点自身的表，在各个分片节点上分别存储各自的数据，在不同的分片节点上查询本地表也只会展示当前节点上的数据；

2023-11-06 20:30:00 3427

原创 Flink基础

Apache Flink是一个同时支持分布式数据流处理和数据批处理的大数据处理系统。Flink可以表达和执行许多类别的数据处理应用程序，包括实时数据分析，连续数据管道，历史数据处理（批处理）和迭代算法（机器学习，图表分析）以及容错的数据流。Flink提供了诸多更高抽象层的API以便用户编写分布式任务：DataSet API，对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理，支持Java、Scala和Python。

2023-11-03 20:30:00 345 1

原创 Hadoop使用

HDFS：HDFS是Hadoop的核心组件，HDFS上的文件被分成块进行存储，默认块的大小是64M，块是文件存储处理的逻辑单元。MapReduce：MapReduce的工作原理用一句话概括就是，分而治之，然后归约，即将一个大任务分解为多个小任务（map），并行执行后，合并结果（reduce）。Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。#统计文件数量，返回的数据是目录个数，文件个数，文件总计大小，输入路径。

2023-11-02 20:00:00 138

原创 Hbase实践

HBase 中的行是按照 rowkey 的字典顺序排序的，这种设计优化了 scan 操作，可以将相关的行以及会被一起读取的行存取在临近位置，便于 scan。比起传统的关系型数据库，可以存储半结构化非结构化的数据，可以存储和处理更大级别的数据，提供高效的查询，对于稀疏数据的处理更好，具有更好的横向扩展性，免费开源性价比很高。rowkey 是按照字典顺序排序存储的，因此，设计 rowkey 的时候，要充分利用这个排序的特点，将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。

2023-09-28 18:03:57 339

原创 BI工具介绍

由Airbnb开源的数据可视化工具，支持数据报表、临时查询、数据分析等功能。提供丰富的图表类型和自由度。开发者：Airbnb开源项目，使用Python开发版本迭代较快，有较高的颜值提供数据可视化功能，支持数据报表、查询和数据分析通过共享数据集和查询，以开放的方式共享数据，允许分叉和生成新的数据集支持图表、数据透视表、队列等可视化方式可能在颜值和交互性方面表现较好FineBI和Tableau在不同方面都有各自的优势和特点。选择适合的BI工具取决于企业的需求、用户的技术水平以及预算等多种因素。

2023-09-28 17:57:50 472

原创 Redis

关系型结构太复杂，数据库，表，字段，类型，主键，外键，索引，表之间关系。Redis Sentinel（哨兵）是一个用于监控和管理 Redis 高可用性的系统，它能够自动检测主节点的故障并进行切换，以确保系统的持续可用性。Sentinel 定期监测 Redis 主节点和从节点的健康状态，如果发现主节点不可用，会自动将一个从节点升级为新的主节点。当主节点不可用时，Sentinel 会自动从可用的从节点中选举一个作为新的主节点，从而保证系统的可用性。当主节点故障时，哨兵会自动完成切换过程，无需人工介入。

2023-09-04 22:21:33 219

原创即席查询对比

大的事实表采用天分区增量构建，为了不影响查询性能，可以定期做合并(Merge)，周期可以根据实际情况确定。对于维表比较大的情况，或者查询Select部分存在复杂的逻辑判断，存在Apache Kylin不支持的函数或语句时，可以将事实表和维表的关联处理创建为Hive视图，之后根据视图创建Cube模型。每次查询必然带有的条件建议在字典设置步骤将其设置为Mandatory。这样会最终 Build出来Cube的大小会减少一半。Cube的维度如果超过10个，建议将常用的聚合字段做分组。

2023-09-04 22:13:13 318

原创 Flume

flume是分布式的，可靠的，用于从不同的来源有效收集聚集和移动大量的日志数据用以集中式的数据存储的系统。是apache的一个顶级项目。

2023-08-28 23:43:15 198

原创 ElasticSearch部署

问题原因：因为Centos6不支持SecComp，而ES默认bootstrap.system_call_filter为true进行检测，所以导致检测失败，失败后直接导致ES不能启动。详见：https://github.com/elastic/elasticsearch/issues/22899。修改kibana.yml配置，添加elasticsearch.ssl.verify: false。修改 /etc/security/limits.d/90-nproc.conf。创建elastic用户。

2023-07-16 22:03:41 147

原创 Linux常用命令

1：搜索某个文件里面是否包含字符串，使用grep "search content" filename1，例如。移动光标前请先按下ESC键，然后shift+$是移动到行尾，0是移动到行首。格式: sed -i “s/查找字段/替换字段/g” grep 查找字段 -rl 路径。2.CTRL+v 进入“可视块”模式，选取这一列操作多少行。2.CTRL+v 进入“可视块”模式，选取这一列操作多少行。4.ESC 按两次，会在每行的选定的区域出现插入的内容。2、>> 是在文件内容后面追加新内容，即追加重定向。

2023-07-13 23:16:13 143

原创 Azkaban用户手册

可以禁用，启用某些job[换行符]Notification:定义任务成功或者失败是否发送邮件[换行符]Failure Options:定义一个job失败，剩下的job怎么执行[换行符]Concurrent：并行任务执行设置[换行符]Flow Parametters：参数设置。这边的是传入参数，由于azkaban.flow.start.day这个参数是执行job前会自动加载的，在job文件中直接赋值给了day，就不用在这边添加了。将另一个也配置一下，在同一时间跑任务，这两个flow就是并行的了。

2023-06-30 22:12:58 457

原创 Kafka基础

Apache Kafka是一种分布式的、基于发布/订阅的消息系统，由Scala语言编写而成。最初由LinkedIn开发，并于2011年初开源。是目前主流的分布式消息引擎及流处理平台，常用作消息总线，实时数据管道，存储系统Kafka 主要起到削峰填谷（缓冲）、系统解构以及冗余的作用。

2023-06-29 23:22:08 376

原创常用BI工具

通过共享数据集和生成数据的查询，您可以以开放的方式共享组织中的数据。FineBI是一套企业数据化管理和可视化BI的方案，集成了Alluxio 、Spark、 HDFS、zookeerer等大数据组件，引擎支撑前端快速地展示分析，真正实现亿级数据，秒级展示。中型企业和大型企业，不过互联网讲究的是开源免费，用的较少。可视化和仪表板：一旦有了数据集，就可以从中创建不同的可视化文件，然后将多个可视化文件组合到一个仪表板中。是国产BI工具，帆软公司的。国内做的一流的BI工具，很炫酷，也比较实用。

2023-05-08 22:02:31 1139

原创数据治理之基础

这是最重要的问题，很多公司的数据部门启动数据治理的大背景就是数据质量存在问题，比如数仓的及时性、准确性、规范性，以及数据应用指标的逻辑一致性问题等。通过数据安全管理，组织可以更好地保护数据资源，减少数据泄露和损失的风险，提高数据的可信度和保密性，有效地支持组织业务的决策和发展。通过数据共享管理，组织可以更好地利用数据资源，提高数据的价值和应用范围，促进数据的创新和发展，有效地支持组织的业务决策和发展。通过主数据管理，组织可以更好地管理和利用数据资源，提高数据的价值和质量，有效地支持组织业务的决策和发展。

2023-05-03 12:19:01 386

原创 hive和presto的SQL对比

Presto使用的内存管理技术是基于内存池的，可以更好地管理内存的分配和释放。假如一个Query需要消耗100GB的内存，这就超过了整个集群的内存了，那么Presto的coordinator就直接卡掉这个查询，防止。查询优化：Presto使用了一系列的查询优化技术，如谓词下推、列裁剪、分区裁剪等，可以减少数据的传输和处理，从而提高查询性能。社区支持：Presto有一个活跃的社区，不断地更新和维护代码，修复bug和增加新功能，保证了Presto的稳定性和可靠性。Master-Slave的架构。

2023-04-21 22:07:31 1394

原创 Hive基础

row_number():从1开始，按照顺序，生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行排列;例子1： select json_tuple(json,'movie','rate','time','userid') as (movie_id,rate,time,user_id)ORC：RCfile的升级版，优化了压缩、查询（二进制列式存储，压缩），文件可切分，支持复杂的数据结构，常用的压缩格式Lzip,Snappy，压缩、解压一般是冲突的在。

2023-04-10 22:00:33 624

weixin_72649242的博客

原创数据仓库建模

原创数据湖调研

原创数据挖掘与数据分析

原创 Hbase Distcp

原创指标体系~

原创数据管理体系之元数据管理

原创实时数仓~

原创 Spark读取hive表元数据异常

原创 StarRocks

原创 Clickhouse

原创 Flink基础

原创 Hadoop使用

原创 Hbase实践

原创 BI工具介绍

原创 Redis

原创即席查询对比

原创 Flume

原创 ElasticSearch部署

原创 Linux常用命令

原创 Azkaban用户手册

原创 Kafka基础

原创常用BI工具

原创数据治理之基础

原创 hive和presto的SQL对比

原创 Hive基础

原创 yarn和mapreduce

原创 flink常用参数

原创存储格式~

原创 SparkSQL join

原创数据管理体系之数据质量

原创因SHUFFLE的KEY不同对落盘文件的影响

原创大数据之路

原创 IDEA 新建多模块Maven项目，同时支持Java和Scala两种语言

原创 Hive常用参数

原创 Spark常用参数

空空如也

空空如也