我很ruo-CSDN博客

原创一致性协议浅析

本文简单介绍了 Paxos、Raft、Zab、Gossip 等一致性协议的基本原理，从事后端的读者可以在分布式系统的数据一致性保障方面得到启发。

2024-01-15 21:15:50 1518

原创 Elasticsearch 集群规模和容量规划

本文首先从 Elasticsearch（ES）的架构原理、工作流程入手，介绍了 ES 各个组件在各个环节的资源需要，随后给出了 ES 集群规模和容量规划的具体方法和实践，可供 ES 维护人员日常工作参考和学习。

2024-01-15 08:33:39 1907

原创深入理解 Spark（四）Spark 内存管理模型

本章节主要介绍了 spark 的内存管理机制，包括早期的静态内存管理模型，现在的统一内存管理模型。读者通过加深对 spark 的内存管理机制的了解后，能够在实际生产中编写出更高效的代码。

2024-01-14 21:04:59 2576 2

原创深入理解 Spark（三）SparkTask 执行与 shuffle 详解

本章节将带读者深入探讨 spark 的 task 执行过程，以及 spark shuffle 机制的分类与演进，一起领略批处理之王 spark 的设计精妙之处。

2024-01-14 10:21:35 1618

原创深入理解 Spark（二）SparkApplication 提交和运行源码分析

本章节结合 spark 源码介绍了 spark application 的提交与运行过程，可供大数据批处理从业者或感兴趣人员研究和学习。

2024-01-13 20:11:07 1493

原创深入理解 Spark（一）spark 运行模式简介与启动流程源码分析

目前在大数据离线计算、批处理场景下，计算引擎基本上被 spark 一统天下。大数据技术日趋成熟的今天，从业者仍然会不时地对这些开源框架的原理进行剖析与温习，温故知新，推陈出新，革故鼎新。本章节介绍了 spark 的常见的几种运行模式，并以 standalone 为例剖析了启动流程源码。读者一方面可以了解到 spark 作业的运行过程，另一方面可以加深对 spark 框架的了解程度。

2024-01-13 10:20:21 1531

原创深入理解 Flink（八）Flink Task 部署初始化和启动详解

Flink 分布式任务的实际执行最终体现在 task 的执行中，本章节深入浅出地剖析了 Flink task 的执行过程，并以 OneInputStreamTask 为典型介绍了上游数据如何在 task 中处理，并发送至下游任务。

2024-01-12 21:30:25 1815 2

原创深入理解 Flink（七）Flink Slot 管理详解

Flink 的 slot 管理分为 ResourceManager、TaskExecutor、JobMaster 3 个部分，本章节结合 Flink 源码对上述 3 个部分的协作关系、具体实现进行了深入剖析。

2024-01-12 08:02:07 1452

原创深入理解 Flink（六）Flink Job 提交和 Flink Graph 详解

本章节重点介绍了 Flink Job 提交过程，包含了 StreamGraph 到 JobGraph 在客户端的转换和优化，并给出了源码级剖析。虽然是以 per-job 模式下的提交过程为例，但在 session、application 模式下核心代码并无二致，均可作为研究参照。

2024-01-11 23:13:12 1654 1

原创深入理解 Flink（五）Flink Standalone 集群启动源码剖析

对 Flink 架构拥有源码级理解是大数据实时计算从业人员的必备条件，从本章节开始，将按照 Flink 集群启动、Flink Job 提交、Slot 管理、Task 执行的顺序一一为读者展开 Flink 源码剖析。本章节重点介绍了 Flink 集群三大组件的启动流程，读者在进行分布式计算框架的设计时可以作为参照。

2024-01-11 09:06:50 2075

原创深入理解 Flink（四）Flink Time+WaterMark+Window 深入分析

Event Time + WaterMark 是 Flink 处理乱序数据的有效机制，本章节将深入分析 Flink 的 Time 与 WaterMark，使读者对其有更为深刻的理解。

2024-01-10 22:36:29 1296 2

原创深入理解 Flink（三）Flink 内核基础设施源码级原理详解

本章节主要介绍了 Flink 的通信框架 akka、Flink on YARN 的三种部署模式、Flink 高可用服务、Flink 文件服务 BlobService。读者可从中进一步了解到 Flink 的工作原理与设计哲学，无论从事 Flink 开发、应用、维护，还是其他分布式系统的设计，均会有启发和收获。

2024-01-10 08:39:00 1859 1

原创深入理解 Flink（二）Flink StateBackend 和 Checkpoint 容错深入分析

状态和精准一次是 Flink 流式计算引擎的一大特色，本章节从状态、状态后端、checkpoint 算法逐步为读者展示了 Flink 状态机制设计的绝妙之处。

2024-01-09 22:48:38 2082

原创深入理解 Flink（一）Flink 架构设计原理

Flink 是当今最主流的大数据流式计算引擎，没有之一。本文将解开 Flink 的神秘面纱，从 MapReduce、Spark、Flink 的技术演进入手，引出 Flink 的核心设计原理、简单的编程模板与执行过程，以及 Flink 内存管理方式。

2024-01-09 08:14:57 1861

原创深入理解 Hadoop （七）YARN资源管理和调度详解

YARN 的核心功能是资源管理与任务调度，本章节将介绍 YARN 的资源管理与任务调度部分，包括队列配置、三种调度器详解。

2024-01-08 21:04:21 1622 1

原创深入理解 Hadoop （六）YARN核心设计理念与工作流程剖析

YARN 是 Hadoop 生态中的资源管理与调动框架，用于计算资源的管理和分配，历经 MapReduce、Spark、Flink 后仍经久不衰。研究 YARN 的核心设计理念有助于理解其本质，读者在进行分布式资源管理与调度系统的设计可作为参照。

2024-01-08 08:38:33 1081 1

原创深入理解 Hadoop （五）YARN核心工作机制浅析

YARN 可以说是 Hadoop 中设计最为复杂的框架了，本章节先从 YARN 的核心工作机制入手，为读者梳理 YARN 的核心设计理念，方便后续章节深入研究 YARN。

2024-01-07 11:40:34 1368 1

原创深入理解 Hadoop （四）HDFS源码剖析

本章将从集群启动、文件上传下载方面深度剖析 HDFS 源码，读者将全方位地了解到 HDFS 的源码实现，分布式存储系统的设计精髓。

2024-01-07 10:52:54 2090 1

原创深入理解 Hadoop （三）HDFS文件系统设计实现

本章节主要介绍了 HDFS 的 NameNode 和 DataNode 的设计与源码实现。

2024-01-06 17:30:13 1446 1

原创深入理解 Hadoop （二）HDFS架构演进

HDFS 主打海量文件存储，文章将带读者解开其神秘面纱。首先将从架构演进开始，从分布式文件系统首先要解决的问题出发，逐步介绍元数据管理、HA 高可用集群、联邦集群，以及企业级实践。

2024-01-06 14:38:05 1505 3

原创深入理解 Hadoop （一）网络通信架构与源码浅析

Apache Hadoop 可以说是大数据技术的基石，研究大数据不妨先从 Hadoop 说起。而针对分布式框架，最先要搞清楚的就是通信协议与一致性保证。本章节先从通信架构将其，在后续章节会介绍一致性保障。

2024-01-06 13:45:57 1528 1

原创 Zookeeper设计理念与源码剖析

ZooKeeper 是分布式协调服务，常用于分布式锁、集群管理，在 Hadoop 生态圈有着举足轻重的地位。本文从设计理念、源码实现方面深入剖析了 Zookeeper 的实现原理，为读者提供了详实的学习资料，在分布式系统设计理念方向提供启发和灵感。

2024-01-04 08:53:04 1267 1

原创 Phoenix 入门案例

1. Phoenix 和 HBase 的映射关系PhoenixHBasedatabasenamespacetabletablecolumn列族名 : 列名主键rowkey通常在 sql 中建表时，可以指定某些列作为联合主键。在 Phnoeix 中有联合主键 (a,b)，对应的 hbase 中的 rowkey 必须是 a,b 拼接起来一起作为 ...

2020-03-29 21:15:09 490

原创 HBase 基本操作与应用

1. HBase 简介1. NoSQLNoSQL 之前指不使用 SQL 标准的数据库，现在泛指非关系型数据库。NoSQL 是为了解决关系型数据库在数据量过大时的性能下降而兴起的。NoSQL 数据库一般都是分布式数据库。NoSQL 数据库一般都复合 CAP 定理。CAP 定理指强一致性、高可用性、强分区容错性最多只能取其二，无法三者兼顾。特点： ① 分布式。② 性能快。③ 不支持...

2020-03-24 23:12:33 873

原创 Kafka 基本操作与应用

1. Kafka 的简介1.1 核心概念Broker：一台 kafka 服务器就是一个 broker，一个集群由多个 broker 组成。Topic：主题只是逻辑上的分类，实际上数据在存储时必须存储在某个主题的分区下。Topic 可以类比为数据库中的库。Partition：分区是物理上数据存储的路径，分区在磁盘上就是一个目录，目录名由主题名-分区名组成。（分区还具有一定的逻辑属性，分区中的...

2020-03-19 11:36:35 406 1

原创 hive 基本操作与示例

1. DDL1.1 DDL之库操作1.1.1 增create database [if not exists] 库名 [comment '库的注释'][location '库在hdfs上存放的路径'][with dbproperties('属性名'='属性值'，...)]注意： location可以省略，默认存放在/user/hive/warehouse/库名.db目录下 ...

2020-03-12 17:56:53 2790

原创 MapReduce中通过自定义比较器实现RawComparator接口完成TopN案例

实现

2020-03-08 16:11:49 317

原创 YARN 配置文件 capacity-scheduler.xml 参数解读

capacity-scheduler.xml 文件中配置了yarn资源调度器运行中的各项参数，位于hadoop安装目录/hadoop-2.7.2/etc/hadoop目录下。打开后可以看到默认配置。所有的配置有注有英文注释，考虑到可能对部分朋友不太友好，所以笔者结合自己的理解对这些注释进行了翻译，如有错误，恳请指正：<configuration># 最多可以运行的应用数，默认10...

2020-03-03 20:40:26 3087 1

原创 hadoop主要文件及目录简介

1. hadoop目录概述hadoop的解压目录下的主要文件如下图所示：其中：/bin 目录存放对Hadoop相关服务（HDFS, YARN）进行操作的脚本；/etc 目录存放Hadoop的配置文件/lib 目录存放Hadoop的本地库（对数据进行压缩解压缩功能）/sbin 目录存放启动或停止Hadoop相关服务的脚本/share 目录存放Hadoop的依赖jar包、文档、和官方案...

2020-02-23 14:39:48 2534

一、简介主从复制的原理本站的其他文章已经介绍得很详细了，这里不再赘述。简单概况一下就是：从端服务器获取主端服务器的操作日志，并对其进行解析，再在从端复现同样的操作，从而达到同步的目的。生产环境中为了保证系统的兼容与稳定，在搭建服务器时就应该配置主从复制，主从服务器中的MySQL版本尽量一致。但有时难以保证版本的一致，或者在学习过程中遇到版本不兼容的问题，就容易遇到各种奇葩的故障。本文介绍了两...

2020-02-16 11:39:00 790

weixin_44512041的博客