zxf126126-CSDN博客

原创 StarRocks运维经验分享

摘要： OLAP团队针对StarRocks集群运维存在的稳定性量化难、方法论缺失及故障管控薄弱问题，提出“确定性运维”理念，通过标准化、流程化手段实现运维可预测性。方案分为四阶段成熟度模型，团队当前处于标准化运维阶段。对外以查询SLA（超时率、失败率）衡量服务质量，对内通过SLO指标（如MTTR、MTBF）优化运维效率。质量运营聚焦查询SLA体系建设、业务接入规范及运营指标监控，形成从用户需求审核到资源调度的闭环管理，最终实现集群稳定运行与高效服务。（149字）

2025-08-05 22:45:09 390

原创《认知觉醒》读书总结

摘要：高效成长的核心在于觉知与行动。一流生活源于觉知而非财富，反思的终极目标是改变。专注力是稀缺品质，学习需在舒适区边缘进行，以产出为导向。行动力要求不计得失地行动，学习的最高标尺是改变。情绪管理强调多角度看待问题，接纳渐进成长。"早冥读写跑"是低成本的成长方式，成长优先级为改变量＞行动量＞思考量＞阅读量。启动行动时，先用即时奖励吸引情绪脑，再调动理智脑，顺应人性而非对抗本能。

2025-07-06 11:08:29 743

原创解密StarRocks中Hive元数据管理机制

下图展示了一个SQL查询从输入到最终执行计划的完整流程，清晰地划分了整个过程的中间产物、处理组件以及组件的外部输入。1. 中间产物: 解析器生成的抽象语法树，表示SQL查询的语法结构。: 基于AST生成的逻辑计划，表示查询的逻辑操作步骤（如选择、投影、连接等）。: 从逻辑计划转换而来的物理计划，表示具体的执行步骤和算法。2. 组件Parser: 将SQL查询解析为AST的组件。Anlyze：将AST解析成逻辑计划的组件。: 对逻辑计划进行重写或优化的组件。Optimizer。

2025-03-20 06:45:50 1206

原创 Starrocks开发环境搭建

Starrocks开发环境搭建

2023-12-05 09:23:33 2694 3

原创 Apache ORC项目编译

包括依赖的第三方库文件，在目录：${CMAKE_BINARY_DIR}/c++/libs/thirdparty，因为手动cmake编译选择目录是build目录，所以clion使用cmake 工具链时，也选择build目录。可能遇到某些第三方包无法下载的问题，可以手动下载之后，把包名放在对应的目录下。cmake 不编译源码，它只生产编译源码的中间产物，如makeFile 文件。在编译的过程中会下载项目依赖的第三方库的源码，并编译。如果clion使用的是远程编译，先把源码同步下来。

2023-09-15 09:36:49 442

原创 C++学习笔记1

拷贝构造函数是一种特殊类型的构造函数，用于创建新对象并将其初始化为与现有对象相同的值。智能指针会在对象不再需要时自动释放所占用的内存，从而提高程序的安全性和可维护性。delete[] arr 释放数组，不能使用 delete arr，delete运算符只会释放数组的第一个元素，而不是整个数组。的值，分别表示整数变量的值、整数变量的地址、指针变量的值、指针变量的地址和指针变量所指向的值。的值，分别表示整数变量的值、指针变量的值和指针变量所指向的值。运算符动态分配的内存，那么在不释放该内存的情况下，

2023-08-19 09:10:11 214

原创 Starrocks数据导入方式

FE收到作业请求之后，会分配给每个任务消费kakfa的分区每个任务会把任务封装成 Stream Load ，选择一台BE作为Coordinator，Coordinator从kafka拉取足够的数据，分拣之后发送到ExecuteBE上完成数据导入然后再把执行结果一步步往上汇报kafka数据导入作业，已导入的数据的offset 是保存在SR端的。

2023-08-13 16:22:15 1040 1

原创 Doris数据导入总结

最近学习了Doris数据导入相关知识，记录一下自己的理解，仅供大家参考。

2023-08-09 09:25:34 693 1

原创 Presto&Trino缓存配置

由于Presto进程是使用presto用户启动的，所以Presto进程作为Alluxio客户端会通过presto用户模拟hdfs访问Alluxio集群，需要在Alluxio的alluxio-site.properties配置允许presto 用户模拟hdfs访问Alluxio集群。由于Alluxio 的进程是使用alluxio用户启动的，在挂载alluxio文件目录时，也会用alluxio用户创建目录。Alluxio 2.9.3 之后不支持以下方式，访问现有的hive表，具体步骤官网没有明确说明。

2023-08-03 21:05:37 1090

原创 Apache Druid集群运维梳理

Task进程运行一段时间后会把本地segment数据上传到hdfsTask发送SegmentTransactionalInsertAction请求到OverlordOverlord运行SegmentTransactionalInsertAction将已发布的segment信息（used=1）写入元数据库（mysql）的druid_segments表中，并更新druid_datasource表中的kafka数据偏移量。

2023-07-24 07:49:31 278

原创 Apache Druid 数据结构及架构原理介绍

Druid 是一个专为大型数据集上的高性能切片和 OLAP 分析而设计的数据存储系统。由于Druid 能够同时提供离线和实时数据的查询，因此Druid最常用作为GUI分析、业务监控、实时数仓的数据存储系统。此外Druid拥有一个多进程，分布式架构，每个Druid组件类型都可以独立配置和扩展，为集群提供最大的灵活性。由于Druid架构设计和数据（离线，实时）的特殊性，导致Druid元数据管理逻辑比较复杂，主要体现在Druid具有众多的元数据存储介质以及众多不同类型组件之间元数据传输逻辑上。

2023-07-15 22:23:37 1627 1

原创关于OLAP技术选型的思考

数据仓库的替代品还是解决数据到达用户的最后1公里问题的方案回答1：数据时效要求比较高查询数据类型没有数据湖那么宽泛大数据中是一个重要的组件回答2：支持查询qps比较高presto也属于OLAPOLAP就是即席分析，在小一点的公司可以替代数仓，大一点的公司仅仅是解决一部分的问题对性能要求比较高的需求，还是要把数据导入OLAP引擎，根据业务的需求是否移动数据，如果性能要求高就移动数据，性能要求低就不需要移动数据回答3：OLAP数据应用的一部分，离用户比较近数据时效要求比较高。

2023-07-10 09:38:49 255 1

原创带着问题学习Clickhouse

基础知识学习。

2023-06-30 07:01:15 206

原创 Doris 最新技术能力调研

不同用户的查询实现资源隔离，查询和写入都可以指定资源组，也可以单独控制某个用户的查询资源使用量。1、配置一个Hive Catalog 配置时，可以配置Hive超管用户，在Doris这边再对每个用户重新赋权，在Doris侧做权限管控，查询Hive时使用超管去查询hive数据。Doris 支持联邦查询，查询多种Catalog，能缓存元数据信息，从而支持查询多种数据源，可以通过Doris作为统一查询网关去查询。查询Hive表时，某个用户Hive有的权限查询的表，Doris这边没有，需要重新赋权。

2023-06-15 10:06:37 1241 1

原创 Clickhouse MergeTree引擎配置说明

分区目录可以不断被合并，最终可能被合并成一个目录分区目录数据量最大可达150G插入的数据只有落地到磁盘之后，客户端才能查询到数据数据写入类似于kafka：支持同步，异步写入。支持最近数据插入去重校验数据块合并之后，旧的数据块默认情况下会在480s之后被删除不活动的数据块：数据被合并后旧的数据块活动的数据块：合并新生成或刚写入的数据块数据块就是：表数据目录下生成的存储数据的目录。

2023-06-09 10:50:50 3393 1

原创 Clickhouse数据写入机制

Clickhouse 写入机制

2023-06-01 06:42:30 3296 1

原创 4、Zookeeper Leader选举流程

zookeeper leader选举机制

2022-12-02 09:37:31 668

原创 3、Zookeeper写入过程中各种异常处理

Zookeeper写入过程中各种异常处理

2022-12-01 09:56:22 719

原创 2、Zookeeper是怎么写入数据的？

zookeeper是怎么写入数据的

2022-11-23 07:08:12 1211

原创 1、Zookeeper架构图

zk 架构介绍

2022-11-21 07:02:51 1530 1

原创三、kylin读写分离集群部署

1、部署图注意：1、在kylin服务机器上hbase shell 作为存储Hbase集群的客户端，配置需要存储集群的客户端配置，cdh 的hbase配置路径在/etc/hbase/conf下，hbase-site.xml 中不能包含hdfs的信息，不然计算集群会使用Hbase的hdfs配置，只包含zk的信息即可2、hadoop 的配置包含计算集群的所有配置，需要在hdfs-s...

2019-04-30 16:22:36 1096 1

原创二、kylin优化

目录1、为什么要优化2、从哪些方面去优化3、根据业务需求减少子Cube数目4、避免高基维度参与太多维度组合5、优化Hbase-RowKey，提高查询效率6、其他优化方法1、为什么要优化（1）kylin主要通过空间换时间的方式来提高查询性能，但是如果cube的所有子cube（2的n次方-1 个）都构建出来，会占用很多计算和存储资源，并且很多子cube的...

2019-04-30 16:18:22 641

原创一、kylin介绍

目录离线OLAP需求多维立方体（Cube）概念Kylin中的数据模型Kylin构建步骤数据在Hbase存储格式查询优化常见问题离线OLAP需求1. 即席查询：指用户在BI系统上通过拖拽现有的查询维度和度量的方式来完成一些临时的数据分析需求。这类需求属于交互式查询，对响应时间有较高的要求(20s)2. 固化查询：对一些固化下来的取数、看数的需求...

2019-04-30 16:07:26 578

zxf126126的博客