自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 一致性协议浅析

本文简单介绍了 Paxos、Raft、Zab、Gossip 等一致性协议的基本原理,从事后端的读者可以在分布式系统的数据一致性保障方面得到启发。

2024-01-15 21:15:50 1407

原创 Elasticsearch 集群规模和容量规划

本文首先从 Elasticsearch(ES)的架构原理、工作流程入手,介绍了 ES 各个组件在各个环节的资源需要,随后给出了 ES 集群规模和容量规划的具体方法和实践,可供 ES 维护人员日常工作参考和学习。

2024-01-15 08:33:39 1673

原创 深入理解 Spark(四)Spark 内存管理模型

本章节主要介绍了 spark 的内存管理机制,包括早期的静态内存管理模型,现在的统一内存管理模型。读者通过加深对 spark 的内存管理机制的了解后,能够在实际生产中编写出更高效的代码。

2024-01-14 21:04:59 2329 2

原创 深入理解 Spark(三)SparkTask 执行与 shuffle 详解

本章节将带读者深入探讨 spark 的 task 执行过程,以及 spark shuffle 机制的分类与演进,一起领略批处理之王 spark 的设计精妙之处。

2024-01-14 10:21:35 1465

原创 深入理解 Spark(二)SparkApplication 提交和运行源码分析

本章节结合 spark 源码介绍了 spark application 的提交与运行过程,可供大数据批处理从业者或感兴趣人员研究和学习。

2024-01-13 20:11:07 1352

原创 深入理解 Spark(一)spark 运行模式简介与启动流程源码分析

目前在大数据离线计算、批处理场景下,计算引擎基本上被 spark 一统天下。大数据技术日趋成熟的今天,从业者仍然会不时地对这些开源框架的原理进行剖析与温习,温故知新,推陈出新,革故鼎新。本章节介绍了 spark 的常见的几种运行模式,并以 standalone 为例剖析了启动流程源码。读者一方面可以了解到 spark 作业的运行过程,另一方面可以加深对 spark 框架的了解程度。

2024-01-13 10:20:21 1412

原创 深入理解 Flink(八)Flink Task 部署初始化和启动详解

Flink 分布式任务的实际执行最终体现在 task 的执行中,本章节深入浅出地剖析了 Flink task 的执行过程,并以 OneInputStreamTask 为典型介绍了上游数据如何在 task 中处理,并发送至下游任务。

2024-01-12 21:30:25 1665 2

原创 深入理解 Flink(七)Flink Slot 管理详解

Flink 的 slot 管理分为 ResourceManager、TaskExecutor、JobMaster 3 个部分,本章节结合 Flink 源码对上述 3 个部分的协作关系、具体实现进行了深入剖析。

2024-01-12 08:02:07 1346

原创 深入理解 Flink(六)Flink Job 提交和 Flink Graph 详解

本章节重点介绍了 Flink Job 提交过程,包含了 StreamGraph 到 JobGraph 在客户端的转换和优化,并给出了源码级剖析。虽然是以 per-job 模式下的提交过程为例,但在 session、application 模式下核心代码并无二致,均可作为研究参照。

2024-01-11 23:13:12 1525 1

原创 深入理解 Flink(五)Flink Standalone 集群启动源码剖析

对 Flink 架构拥有源码级理解是大数据实时计算从业人员的必备条件,从本章节开始,将按照 Flink 集群启动、Flink Job 提交、Slot 管理、Task 执行的顺序一一为读者展开 Flink 源码剖析。本章节重点介绍了 Flink 集群三大组件的启动流程,读者在进行分布式计算框架的设计时可以作为参照。

2024-01-11 09:06:50 1887

原创 深入理解 Flink(四)Flink Time+WaterMark+Window 深入分析

Event Time + WaterMark 是 Flink 处理乱序数据的有效机制,本章节将深入分析 Flink 的 Time 与 WaterMark,使读者对其有更为深刻的理解。

2024-01-10 22:36:29 1186 2

原创 深入理解 Flink(三)Flink 内核基础设施源码级原理详解

本章节主要介绍了 Flink 的通信框架 akka、Flink on YARN 的三种部署模式、Flink 高可用服务、Flink 文件服务 BlobService。读者可从中进一步了解到 Flink 的工作原理与设计哲学,无论从事 Flink 开发、应用、维护,还是其他分布式系统的设计,均会有启发和收获。

2024-01-10 08:39:00 1718 1

原创 深入理解 Flink(二)Flink StateBackend 和 Checkpoint 容错深入分析

状态和精准一次是 Flink 流式计算引擎的一大特色,本章节从状态、状态后端、checkpoint 算法逐步为读者展示了 Flink 状态机制设计的绝妙之处。

2024-01-09 22:48:38 1881

原创 深入理解 Flink(一)Flink 架构设计原理

Flink 是当今最主流的大数据流式计算引擎,没有之一。本文将解开 Flink 的神秘面纱,从 MapReduce、Spark、Flink 的技术演进入手,引出 Flink 的核心设计原理、简单的编程模板与执行过程,以及 Flink 内存管理方式。

2024-01-09 08:14:57 1610

原创 深入理解 Hadoop (七)YARN资源管理和调度详解

YARN 的核心功能是资源管理与任务调度,本章节将介绍 YARN 的资源管理与任务调度部分,包括队列配置、三种调度器详解。

2024-01-08 21:04:21 1399 1

原创 深入理解 Hadoop (六)YARN核心设计理念与工作流程剖析

YARN 是 Hadoop 生态中的资源管理与调动框架,用于计算资源的管理和分配,历经 MapReduce、Spark、Flink 后仍经久不衰。研究 YARN 的核心设计理念有助于理解其本质,读者在进行分布式资源管理与调度系统的设计可作为参照。

2024-01-08 08:38:33 1023 1

原创 深入理解 Hadoop (五)YARN核心工作机制浅析

YARN 可以说是 Hadoop 中设计最为复杂的框架了,本章节先从 YARN 的核心工作机制入手,为读者梳理 YARN 的核心设计理念,方便后续章节深入研究 YARN。

2024-01-07 11:40:34 1272 1

原创 深入理解 Hadoop (四)HDFS源码剖析

本章将从集群启动、文件上传下载方面深度剖析 HDFS 源码,读者将全方位地了解到 HDFS 的源码实现,分布式存储系统的设计精髓。

2024-01-07 10:52:54 1930 1

原创 深入理解 Hadoop (三)HDFS文件系统设计实现

本章节主要介绍了 HDFS 的 NameNode 和 DataNode 的设计与源码实现。

2024-01-06 17:30:13 1401 1

原创 深入理解 Hadoop (二)HDFS架构演进

HDFS 主打海量文件存储,文章将带读者解开其神秘面纱。首先将从架构演进开始,从分布式文件系统首先要解决的问题出发,逐步介绍元数据管理、HA 高可用集群、联邦集群,以及企业级实践。

2024-01-06 14:38:05 1348 3

原创 深入理解 Hadoop (一)网络通信架构与源码浅析

Apache Hadoop 可以说是大数据技术的基石,研究大数据不妨先从 Hadoop 说起。而针对分布式框架,最先要搞清楚的就是通信协议与一致性保证。本章节先从通信架构将其,在后续章节会介绍一致性保障。

2024-01-06 13:45:57 1397 1

原创 Zookeeper设计理念与源码剖析

ZooKeeper 是分布式协调服务,常用于分布式锁、集群管理,在 Hadoop 生态圈有着举足轻重的地位。本文从设计理念、源码实现方面深入剖析了 Zookeeper 的实现原理,为读者提供了详实的学习资料,在分布式系统设计理念方向提供启发和灵感。

2024-01-04 08:53:04 1179 1

原创 Phoenix 入门案例

1. Phoenix 和 HBase 的映射关系PhoenixHBasedatabasenamespacetabletablecolumn列族名 : 列名主键rowkey通常在 sql 中建表时,可以指定某些列作为联合主键。在 Phnoeix 中有联合主键 (a,b),对应的 hbase 中 的 rowkey 必须是 a,b 拼接起来一起作为 ...

2020-03-29 21:15:09 463

原创 HBase 基本操作与应用

1. HBase 简介1. NoSQLNoSQL 之前指不使用 SQL 标准的数据库,现在泛指非关系型数据库。NoSQL 是为了解决关系型数据库在数据量过大时的性能下降而兴起的。NoSQL 数据库一般都是分布式数据库。NoSQL 数据库一般都复合 CAP 定理。CAP 定理指强一致性、高可用性、强分区容错性最多只能取其二,无法三者兼顾。特点: ① 分布式。② 性能快。③ 不支持...

2020-03-24 23:12:33 810

原创 Kafka 基本操作与应用

1. Kafka 的简介1.1 核心概念Broker:一台 kafka 服务器就是一个 broker,一个集群由多个 broker 组成。Topic:主题只是逻辑上的分类,实际上数据在存储时必须存储在某个主题的分区下。Topic 可以类比为数据库中的库。Partition:分区是物理上数据存储的路径,分区在磁盘上就是一个目录,目录名由主题名-分区名组成。(分区还具有一定的逻辑属性,分区中的...

2020-03-19 11:36:35 386 1

原创 七个案例,教你从零到一上手 Flume

手动

2020-03-15 16:31:02 305

原创 hive 基本操作与示例

1. DDL1.1 DDL之库操作1.1.1 增create database [if not exists] 库名 [comment '库的注释'][location '库在hdfs上存放的路径'][with dbproperties('属性名'='属性值',...)]注意: location可以省略,默认存放在/user/hive/warehouse/库名.db目录下​ ...

2020-03-12 17:56:53 2716

原创 MapReduce中通过自定义比较器实现RawComparator接口完成TopN案例

实现

2020-03-08 16:11:49 295

原创 YARN 配置文件 capacity-scheduler.xml 参数解读

capacity-scheduler.xml 文件中配置了yarn资源调度器运行中的各项参数,位于hadoop安装目录/hadoop-2.7.2/etc/hadoop目录下。打开后可以看到默认配置。所有的配置有注有英文注释,考虑到可能对部分朋友不太友好,所以笔者结合自己的理解对这些注释进行了翻译,如有错误,恳请指正:<configuration># 最多可以运行的应用数,默认10...

2020-03-03 20:40:26 2884 1

原创 hadoop主要文件及目录简介

1. hadoop目录概述hadoop的解压目录下的主要文件如下图所示:其中:/bin 目录存放对Hadoop相关服务(HDFS, YARN)进行操作的脚本;/etc 目录存放Hadoop的配置文件/lib 目录存放Hadoop的本地库(对数据进行压缩解压缩功能)/sbin 目录存放启动或停止Hadoop相关服务的脚本/share 目录存放Hadoop的依赖jar包、文档、和官方案...

2020-02-23 14:39:48 2411

原创 MySQL主从复制常见故障排除

一、简介主从复制的原理本站的其他文章已经介绍得很详细了,这里不再赘述。简单概况一下就是:从端服务器获取主端服务器的操作日志,并对其进行解析,再在从端复现同样的操作,从而达到同步的目的。生产环境中为了保证系统的兼容与稳定,在搭建服务器时就应该配置主从复制,主从服务器中的MySQL版本尽量一致。但有时难以保证版本的一致,或者在学习过程中遇到版本不兼容的问题,就容易遇到各种奇葩的故障。本文介绍了两...

2020-02-16 11:39:00 731

MATLAB-SIMULINK入门教程

simulink课件,包含了simulink入门操作,深入浅出,自学宝典,

2019-01-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除