bigdata-rookie-CSDN博客

原创 Starrocks 数据模型

目前 Starrocks 根据摄入数据和实际存储数据之间的映射关系，分为明细模型（Duplicate key）、聚合模型（Aggregate key）、更新模型（Unique key）和主键模型（Primary key）。

2026-02-02 21:41:47 1007

Starrocks 是新一代极速全场景 MPP 数据库。StarRocks 采用分布式架构，对数据表进行水平划分并以多副本存储。集群规模可以灵活伸缩，能够支持 10PB 级别的数据分析;支持 MPP 框架，并行加速计算;支持多副本，具有弹性容错能力。StarRocks 采用关系模型，使用严格的数据类型和列式存储引擎，通过编码和压缩技术，降低读写放大；使用向量化执行方式，充分挖掘多核 CPU 的并行计算能力，从而显著提升查询性能。

2026-02-01 23:05:55 869

原创 StarRocks（2.5.1）vs Clickhouse（21.7.3.14）集群 SSB 性能测试

机器6 台服务器CPU内存238G网络带宽10G磁盘HDDStarRocks 和 Clickhouse 部署在相同配置的机器上分别进行启动测试。StarRocks 部署 6BE 1FEClickhouse 部署六个节点后建立分布式表内核版本：3.10.0-693.el7.x86_64操作系统版本：Centos 7软件版本：StarRocks 2.5.1、ClickHouse 21.7.3.14测试数据（两张表是相同的数据集）表名行数解释lineorder6亿。

2026-02-01 22:36:21 958

原创 Spark shuffle 和 MapReduce shuffle 的区别

shuffle 的字面意思是洗牌、混洗的意思，就是把一组有规律的数据尽量打乱成无规律的数据。但在 MapReduce 中 Shuffle 更像是洗牌的逆过程，其将 Map 端输出的混乱数据按指定规则划分成有一定规律的数据，以方便 Reduce 端接收处理。MapReduce 的工作阶段主要可有分为 Map 端和 Reduce 端两个部分。

2026-02-01 17:30:42 966 1

原创 Spark 运行架构及相关概念

Spark 框架的核心是一个计算引擎，整体来说，它采用了标准的 master-slave 结构。上图中的 Driver 表示 master ，负责管理整个集群中的作业任务调度；Executor 则是 slave，负责实际执行任务；

2025-12-11 16:40:41 1003

原创 Java ConcurrentHashMap 简介

在 JDK1.7 中 ConcurrentHashMap 的底层是 Segment 数组 + HashEntry 数组 + 链表。如下图所示：ConcurrentHashMap 为了提高本身的并发能力，在内部采用了一个叫做 Segment 的结构，一个 Segment 其实就是一个类 Hashtable 的结构，Segment 内部维护了一个链表数组每个 Segment 继承 ReentrantLock，作为独立的锁，默认 16 个 Segment 最大并发 16。

2025-12-09 22:10:08 601

原创 Java HashMap、Hashtable、HashSet、TreeMap 之间的区别

HashSet 底层是基于 HashMap 实现的，除了 clone()、writeObject()、readObject()是 HashSet 自己实现的，其他方法都是直接调用 HashMap 中的方法。这些方法都是基于红黑树数据结构的属性实现的，红黑树保持平衡状态，从而保证了搜索操作的时间复杂度为 O(log n)，这让 TreeMap 成为了处理有序集合搜索问题的强大工具。综上所述，相比于 HashMap，TreeMap 主要多了对集合中的元素根据键排序的能力以及对集合内元素的搜索能力。

2025-12-09 17:28:20 826

原创 HDFS 扩容缩容

NameNode 格式化是初始化 HDFS 文件系统的过程，它会创建新的文件系统镜像（fsimage）和编辑日志（edit logs），并设置 NameNode 的存储目录。注意：格式化会删除所有现有的数据，因此只能在全新的安装或确定要清除所有数据时执行。注意：在 HA 设置中，通常需要在一个 NameNode 上格式化，然后将格式化产生的元数据复制到其他 NameNode，或者通过共享存储使得其他 NameNode 可以访问相同的元数据。

2025-12-08 16:33:05 775

原创数据仓库建模

拉链表，记录每条信息的生命周期，一旦一条记录的生命周期结束，就重新开始一条新的记录，并把当前日期放入生效开始日期。如果房前信息至今有效，在生效日期中填入一个极大值（如 9999-12-31）。

2025-12-08 15:58:29 960

原创 Scala 泛型

Scala 和 Java 一样，类、特质、方法都支持泛型。泛型就是定义类、方法时不用指定具体数据类型，在使用时才传入具体适用类型，这样的好处就是支持多类型的复用。

2025-12-04 23:26:24 676

原创 Flink 状态一致性

简单来说，一致性其实就是结果的正确性。对于分布式系统而言，强调的是不同节点中相同数据的副本应该总是“一致的”，也就是从不同节点读取时总能得到相同的值；对于事务而言，是要求提交更新操作后，能够读取到新的数据。

2025-11-25 23:10:59 969

原创 MySQL 索引

索引是一种用于快速查询和检索数据的数据结构，其本质可以看成是一种排序号的数据结构。MySQL 使用 B+ 树作为索引结构。

2025-11-24 21:24:03 897

原创 Minor GC 和 Full GC

Minor GC（次要垃圾回收）是指 JVM 只对新生代进行垃圾回收的过程。它是 JVM 中最频繁发生的 GC 类型。

2025-11-24 17:30:29 107

原创 Java 垃圾回收

启动一个java程序时，一个虚拟机实例开始诞生，程序关闭的时候，虚拟机实例也随之消亡。

2025-11-24 17:29:11 55

原创 Spark 数据倾斜解决方案

Spark 中的数据倾斜问题主要指 shuffle 过程中出现的数据倾斜问题，是由于不同的 key 对应的数据量不同导致的不同 task 所处理的数据量不同的问题。

2025-11-24 11:32:59 304

原创 Flink Checkpoint 和 Spark Checkpoint 的区别

更像一个“它主要目的是，避免因链路过长导致的性能问题或 StackOverflowError。它是一个** coarse-grained（粗粒度）** 的、的、的容错机制。：是一个“它是 Flink，用于在发生故障时，将整个分布式数据流状态恢复到一致性的检查点，实现或 At-Least-Once 语义。它是一个的、的、的容错机制。简单来说，Spark Checkpoint 是为了解决 RDD 带来的内部问题，而 Flink Checkpoint 是对外提供容错保证的核心特性。

2025-11-23 22:46:25 1064

原创 Spark Streaming 简介

特性DStream (微批次)编程模型基于 RDD 的低级 API基于 DataFrame/Dataset 的高级声明式 APIAPI 级别较低级，需手动处理状态、窗口较高级，内置对事件时间、窗口、水位线的支持性能优化无自动优化利用 Spark SQL 的 Catalyst 优化器和 Tungsten 执行引擎延迟秒级（微批次）可达毫秒级（微批次），还有更低延迟的连续处理模式语义保证At-least-once 或 exactly-once（需精心设计）端到端的语义学习曲线。

2025-11-23 22:20:47 912

原创 Spark SQL 简介

Spark SQL 是 Spark 用于结构化数据处理的模块，对于开发人员来讲，Spark SQL 可以简化 RDD 的开发，提高开发效率，且执行效率非常快，所以实际工作中，基本上采用的就是 Spark SQL。Spark SQL 为了简化 RDD 的开发，提高开发效率，提供了两个编程抽象，类似 Spark Core 中的 RDD。即 DataFrame 和 DataSet。

2025-11-23 21:51:25 815

原创使用机器学习检测 DGA 域名 — SVM

DGA 是 Domain Generation Algorithm（域名生成算法）的简称，是指使用主控端和被控端协商好的一种基于随机算法的域名生成协议，简单来说就是生成一个随机字符串来作为域名并进行注册，将其作为 C&C 服务器的域名并不定时经常性更换。由于具备强随机性，短时效性，通过 DGA 生成的域名往往在查杀上更具被难度。

2025-11-23 15:51:39 447

原创 Spark 部署模式

所谓 Local 模式，就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境，一般用于教学、调试、演示等。

2025-11-20 23:16:29 1192 1

原创 Kafka 生产问题——Flink 消费超时

控制台消费者的“成功”是表面现象，它只关心能不能读；Flink 是“分布式状态引擎”，启动时需要 Kafka 的 metadata + offset + 分区 leader + 可用副本全部健康，才能正常启动。所以，控制台能消费 ≠ Kafka 一切正常。Flink 报错才是系统级信号，说明 Kafka 某个组件或分区状态存在实际异常。

2025-11-18 16:39:39 854

原创 Hive 简介

Hive 一个基于 Hadoop 的数据仓库，适用于一些高延迟性的应用（离线开发），可以将存储在 Hadoop 文件中的结构化、半结构化数据文件映射为一张数据库表，并基于表提供类似 SQL 的查询模型，称为 Hive 查询语言（HQL），用于访问和分析存储在 Hadoop 文件中的大型数据集。Hive 的核心是将 HQL 转换为 MapReduce 程序，然后将程序提交到 Hadoop 集群执行；Hive 本身不存储和计算数据，它完全依赖于 HDFS 和 MapReduce，Hive 中的表是纯逻辑表。

2025-11-13 21:44:49 549

原创 Flink 多流转换

Flink 的多流转换可以分为“分流”和“合流”两大类。目前分流的操作一般是通过侧输出流来实现，而合流的算子比较丰富，根据不同的需求可以调用 union、connect、join 以及 coGroup 等接口进行合并操作。

2025-11-04 23:43:36 998

原创 JVM 垃圾收集器介绍

生产目的是为了替换 GMS，将内存化整为零，分成多个独立的 Region，每一个 Region 设计了两个名为 TAMS 的指针。

2025-11-04 17:23:22 1040

原创 kafka kraft 模式简介

Zookeeper 提供了配置服务、分布式同步、命名服务、Leader 选举和集群管理等功能，很多大数据组件都依赖 Zookeeper 来构建，Apache Kafka 也不例外。

2025-11-03 22:17:17 830

原创 Flink SQL 调优

LocalGlobal 优化将原先的 Aggregate 分成 Local + Global 两段聚合，即 MapReduce 中的 Combine + Reduce 处理模式。第一阶段在上游节点本地攒一批数据进行聚合（localAgg），并输出这次微批的增量值（Accumulator）。第二阶段再将收到的 Accumulator 合并（Merge），得到最终的结果（GlobalAgg）。

2025-11-03 17:21:06 685

原创 Flink 优化-数据倾斜

相同 Task 的多个 SubTask 中，个别 SubTask 接收到的数据量明显大于其他 SubTask 接收到的数据量，通过 Flink Web UI 可以精确地看到每个 SubTask 处理了多少数据，即可判断出 Flink 任务是否存在数据倾斜。通常数据倾斜也会引起反压。另外，有时 Checkpoint detail 里不同的 SubTask 的 State size 也是一个分析数据倾斜的有用指标。

2025-11-03 16:09:19 1053

原创 Flink 优化-反压处理

简单来说，Flink 拓扑中每个节点（Task）间的数据都以阻塞队列的方式传输，下游来不及消费导致队列被占满后，上游的生产也会被阻塞，最终导致数据源的摄入被阻塞。反压通常产生于这样的场景：短时间的负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问腿都会导致反压，例如，垃圾回收停顿可能会导致流入的数据快速堆积；遇到大促、秒杀活动导致流量陡增。

2025-11-02 23:30:04 779

原创 Flink 优化-状态及 Checkpoint 调优

Flink 针对不同的设置为 RocksDB 提供了一些预定义的选项集合，当前支持的预定义选项有：DEFAULT：什么都不配；SPINGNING_DISK_OPTIMIZED：基于机械硬盘的优化；基于机械硬盘+内存的优化；基于固态硬盘的优化；

2025-10-31 21:32:30 1200

原创 Flink 优化-资源配置优化

可以看到容器的 vcore 变了：还是 4 个容器，但是 TaskManager 占用的 3 个容器，每个容器有 2 个 vcore，即 1 + 3 * 2 = 7。可以修改策略为 “DominantResourceCalculator” 该资源计算器在计算资源的时候会综合考虑 cpu 和内存的情况。2）执行开销：JVM 执行时自身所需要的内容，包括线程堆栈、IO、编译缓存等所使用的内存。，所以在 Yarn 的资源管理页面上看到每个容器的 vcore 个数还是 1。Yarn 的容量调度器默认情况下是使用。

2025-10-30 22:46:43 983

空空如也

空空如也