- 博客(31)
- 资源 (1)
- 收藏
- 关注
原创 一致性协议浅析
本文简单介绍了 Paxos、Raft、Zab、Gossip 等一致性协议的基本原理,从事后端的读者可以在分布式系统的数据一致性保障方面得到启发。
2024-01-15 21:15:50
1407
原创 Elasticsearch 集群规模和容量规划
本文首先从 Elasticsearch(ES)的架构原理、工作流程入手,介绍了 ES 各个组件在各个环节的资源需要,随后给出了 ES 集群规模和容量规划的具体方法和实践,可供 ES 维护人员日常工作参考和学习。
2024-01-15 08:33:39
1673
原创 深入理解 Spark(四)Spark 内存管理模型
本章节主要介绍了 spark 的内存管理机制,包括早期的静态内存管理模型,现在的统一内存管理模型。读者通过加深对 spark 的内存管理机制的了解后,能够在实际生产中编写出更高效的代码。
2024-01-14 21:04:59
2329
2
原创 深入理解 Spark(三)SparkTask 执行与 shuffle 详解
本章节将带读者深入探讨 spark 的 task 执行过程,以及 spark shuffle 机制的分类与演进,一起领略批处理之王 spark 的设计精妙之处。
2024-01-14 10:21:35
1465
原创 深入理解 Spark(二)SparkApplication 提交和运行源码分析
本章节结合 spark 源码介绍了 spark application 的提交与运行过程,可供大数据批处理从业者或感兴趣人员研究和学习。
2024-01-13 20:11:07
1352
原创 深入理解 Spark(一)spark 运行模式简介与启动流程源码分析
目前在大数据离线计算、批处理场景下,计算引擎基本上被 spark 一统天下。大数据技术日趋成熟的今天,从业者仍然会不时地对这些开源框架的原理进行剖析与温习,温故知新,推陈出新,革故鼎新。本章节介绍了 spark 的常见的几种运行模式,并以 standalone 为例剖析了启动流程源码。读者一方面可以了解到 spark 作业的运行过程,另一方面可以加深对 spark 框架的了解程度。
2024-01-13 10:20:21
1412
原创 深入理解 Flink(八)Flink Task 部署初始化和启动详解
Flink 分布式任务的实际执行最终体现在 task 的执行中,本章节深入浅出地剖析了 Flink task 的执行过程,并以 OneInputStreamTask 为典型介绍了上游数据如何在 task 中处理,并发送至下游任务。
2024-01-12 21:30:25
1665
2
原创 深入理解 Flink(七)Flink Slot 管理详解
Flink 的 slot 管理分为 ResourceManager、TaskExecutor、JobMaster 3 个部分,本章节结合 Flink 源码对上述 3 个部分的协作关系、具体实现进行了深入剖析。
2024-01-12 08:02:07
1346
原创 深入理解 Flink(六)Flink Job 提交和 Flink Graph 详解
本章节重点介绍了 Flink Job 提交过程,包含了 StreamGraph 到 JobGraph 在客户端的转换和优化,并给出了源码级剖析。虽然是以 per-job 模式下的提交过程为例,但在 session、application 模式下核心代码并无二致,均可作为研究参照。
2024-01-11 23:13:12
1525
1
原创 深入理解 Flink(五)Flink Standalone 集群启动源码剖析
对 Flink 架构拥有源码级理解是大数据实时计算从业人员的必备条件,从本章节开始,将按照 Flink 集群启动、Flink Job 提交、Slot 管理、Task 执行的顺序一一为读者展开 Flink 源码剖析。本章节重点介绍了 Flink 集群三大组件的启动流程,读者在进行分布式计算框架的设计时可以作为参照。
2024-01-11 09:06:50
1887
原创 深入理解 Flink(四)Flink Time+WaterMark+Window 深入分析
Event Time + WaterMark 是 Flink 处理乱序数据的有效机制,本章节将深入分析 Flink 的 Time 与 WaterMark,使读者对其有更为深刻的理解。
2024-01-10 22:36:29
1186
2
原创 深入理解 Flink(三)Flink 内核基础设施源码级原理详解
本章节主要介绍了 Flink 的通信框架 akka、Flink on YARN 的三种部署模式、Flink 高可用服务、Flink 文件服务 BlobService。读者可从中进一步了解到 Flink 的工作原理与设计哲学,无论从事 Flink 开发、应用、维护,还是其他分布式系统的设计,均会有启发和收获。
2024-01-10 08:39:00
1718
1
原创 深入理解 Flink(二)Flink StateBackend 和 Checkpoint 容错深入分析
状态和精准一次是 Flink 流式计算引擎的一大特色,本章节从状态、状态后端、checkpoint 算法逐步为读者展示了 Flink 状态机制设计的绝妙之处。
2024-01-09 22:48:38
1881
原创 深入理解 Flink(一)Flink 架构设计原理
Flink 是当今最主流的大数据流式计算引擎,没有之一。本文将解开 Flink 的神秘面纱,从 MapReduce、Spark、Flink 的技术演进入手,引出 Flink 的核心设计原理、简单的编程模板与执行过程,以及 Flink 内存管理方式。
2024-01-09 08:14:57
1610
原创 深入理解 Hadoop (七)YARN资源管理和调度详解
YARN 的核心功能是资源管理与任务调度,本章节将介绍 YARN 的资源管理与任务调度部分,包括队列配置、三种调度器详解。
2024-01-08 21:04:21
1399
1
原创 深入理解 Hadoop (六)YARN核心设计理念与工作流程剖析
YARN 是 Hadoop 生态中的资源管理与调动框架,用于计算资源的管理和分配,历经 MapReduce、Spark、Flink 后仍经久不衰。研究 YARN 的核心设计理念有助于理解其本质,读者在进行分布式资源管理与调度系统的设计可作为参照。
2024-01-08 08:38:33
1023
1
原创 深入理解 Hadoop (五)YARN核心工作机制浅析
YARN 可以说是 Hadoop 中设计最为复杂的框架了,本章节先从 YARN 的核心工作机制入手,为读者梳理 YARN 的核心设计理念,方便后续章节深入研究 YARN。
2024-01-07 11:40:34
1272
1
原创 深入理解 Hadoop (四)HDFS源码剖析
本章将从集群启动、文件上传下载方面深度剖析 HDFS 源码,读者将全方位地了解到 HDFS 的源码实现,分布式存储系统的设计精髓。
2024-01-07 10:52:54
1930
1
原创 深入理解 Hadoop (三)HDFS文件系统设计实现
本章节主要介绍了 HDFS 的 NameNode 和 DataNode 的设计与源码实现。
2024-01-06 17:30:13
1401
1
原创 深入理解 Hadoop (二)HDFS架构演进
HDFS 主打海量文件存储,文章将带读者解开其神秘面纱。首先将从架构演进开始,从分布式文件系统首先要解决的问题出发,逐步介绍元数据管理、HA 高可用集群、联邦集群,以及企业级实践。
2024-01-06 14:38:05
1348
3
原创 深入理解 Hadoop (一)网络通信架构与源码浅析
Apache Hadoop 可以说是大数据技术的基石,研究大数据不妨先从 Hadoop 说起。而针对分布式框架,最先要搞清楚的就是通信协议与一致性保证。本章节先从通信架构将其,在后续章节会介绍一致性保障。
2024-01-06 13:45:57
1397
1
原创 Zookeeper设计理念与源码剖析
ZooKeeper 是分布式协调服务,常用于分布式锁、集群管理,在 Hadoop 生态圈有着举足轻重的地位。本文从设计理念、源码实现方面深入剖析了 Zookeeper 的实现原理,为读者提供了详实的学习资料,在分布式系统设计理念方向提供启发和灵感。
2024-01-04 08:53:04
1179
1
原创 Phoenix 入门案例
1. Phoenix 和 HBase 的映射关系PhoenixHBasedatabasenamespacetabletablecolumn列族名 : 列名主键rowkey通常在 sql 中建表时,可以指定某些列作为联合主键。在 Phnoeix 中有联合主键 (a,b),对应的 hbase 中 的 rowkey 必须是 a,b 拼接起来一起作为 ...
2020-03-29 21:15:09
463
原创 HBase 基本操作与应用
1. HBase 简介1. NoSQLNoSQL 之前指不使用 SQL 标准的数据库,现在泛指非关系型数据库。NoSQL 是为了解决关系型数据库在数据量过大时的性能下降而兴起的。NoSQL 数据库一般都是分布式数据库。NoSQL 数据库一般都复合 CAP 定理。CAP 定理指强一致性、高可用性、强分区容错性最多只能取其二,无法三者兼顾。特点: ① 分布式。② 性能快。③ 不支持...
2020-03-24 23:12:33
810
原创 Kafka 基本操作与应用
1. Kafka 的简介1.1 核心概念Broker:一台 kafka 服务器就是一个 broker,一个集群由多个 broker 组成。Topic:主题只是逻辑上的分类,实际上数据在存储时必须存储在某个主题的分区下。Topic 可以类比为数据库中的库。Partition:分区是物理上数据存储的路径,分区在磁盘上就是一个目录,目录名由主题名-分区名组成。(分区还具有一定的逻辑属性,分区中的...
2020-03-19 11:36:35
386
1
原创 hive 基本操作与示例
1. DDL1.1 DDL之库操作1.1.1 增create database [if not exists] 库名 [comment '库的注释'][location '库在hdfs上存放的路径'][with dbproperties('属性名'='属性值',...)]注意: location可以省略,默认存放在/user/hive/warehouse/库名.db目录下 ...
2020-03-12 17:56:53
2716
原创 YARN 配置文件 capacity-scheduler.xml 参数解读
capacity-scheduler.xml 文件中配置了yarn资源调度器运行中的各项参数,位于hadoop安装目录/hadoop-2.7.2/etc/hadoop目录下。打开后可以看到默认配置。所有的配置有注有英文注释,考虑到可能对部分朋友不太友好,所以笔者结合自己的理解对这些注释进行了翻译,如有错误,恳请指正:<configuration># 最多可以运行的应用数,默认10...
2020-03-03 20:40:26
2884
1
原创 hadoop主要文件及目录简介
1. hadoop目录概述hadoop的解压目录下的主要文件如下图所示:其中:/bin 目录存放对Hadoop相关服务(HDFS, YARN)进行操作的脚本;/etc 目录存放Hadoop的配置文件/lib 目录存放Hadoop的本地库(对数据进行压缩解压缩功能)/sbin 目录存放启动或停止Hadoop相关服务的脚本/share 目录存放Hadoop的依赖jar包、文档、和官方案...
2020-02-23 14:39:48
2411
原创 MySQL主从复制常见故障排除
一、简介主从复制的原理本站的其他文章已经介绍得很详细了,这里不再赘述。简单概况一下就是:从端服务器获取主端服务器的操作日志,并对其进行解析,再在从端复现同样的操作,从而达到同步的目的。生产环境中为了保证系统的兼容与稳定,在搭建服务器时就应该配置主从复制,主从服务器中的MySQL版本尽量一致。但有时难以保证版本的一致,或者在学习过程中遇到版本不兼容的问题,就容易遇到各种奇葩的故障。本文介绍了两...
2020-02-16 11:39:00
731
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人