自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

zyllxiao5的博客

翻译 Structured Streaming: A Declarative API for Real-Time Applications in Apache Spark译文

下面翻译一下，Spark 2.4 版本后舍弃 Spark Streaming 转向 Structured Streaming的趋势了Structured Streaming: A Declarative API for Real-TimeApplications in Apache SparkAbstractWith the ubiquity of real-time data, organizations need streaming systems that are scalable, easy

2021-07-13 16:56:06 145

原创 Kafka中文件存储格式

Kafka高效文件存储设计特点：1、Kafka把topic中一个parition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完文件，减少磁盘占用。2、通过索引信息可以快速定位message和确定response的最大大小。3、通过index元数据全部映射到memory，可以避免segment file的IO磁盘操作。4、通过索引文件稀疏存储，可以大幅降低index文件元数据占用空间大小。5、零拷贝技术的使用。Kafka部分名词解释如下：Broker：消息中间件处理结点

2021-03-02 16:52:41 3007

原创 Kafka结构框架自解(三)

三、Kafka的消费者在消费者模式中，总体存在两种基本的消费模式：一种是push（推）一种是pull（拉取），Kafka对应的消费者不同，所以消费者需要的传输速率要求是不同的，所以这样采用pull的方式最为合适，需要多少数据，消费者自己从kafka中拉取多少数据。pull的模式也存在其缺点，消费者不知道什么时候Kafka有数据，有多少数据，所以如果 kafka 没有数据，消费者可能会陷入循环中，一直返回空数据。针对这一点，Kafka 的消费者在消费数据时会传入一个时长参数 timeout，如果当前没有

2020-12-29 20:34:53 243

原创 Kafka结构框架自解（二）

二、Kafka生产者2.1 ack机制上一篇中介绍了Kafka本身中一些存储、主从以及数据一致性的机制，这里将会进一步解释Kafka中生产者的运行原理，在前面说到ISR机制时，提到ack机制。这里将会进行详细阐述，Kafka的生产者与Kafka之间的通信机制——ack方案优点半数以上完成同步，就发送ack延迟低全部完成同步，才发送ack选举新的 leader 时，容忍 n 台节点的故障，需要 n+1 个副本当然，两者的缺点也是横明显的方案缺点

2020-12-16 20:20:54 131

原创 Kafka结构框架自解（一）

**kafka简介**Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。（本人主要配合flink进行实时分析）kafka存在的意义，而不是直接将数据灌倒Flink：一、解耦性，让flink这一实时计算框架专注于计算；二、缓存与消峰，当大数据量短时间冲入计算时，是不符合实时计算的理念；实时计算相对应批计算有一个重要的特点，是将时间换取空间，每时每刻的计算替代数据收集完毕后每天集中的跑批；kafka让数据有序被消费，将顶点的峰值数据量

2020-12-14 20:00:11 108

原创 Apache Flink的架构流程

Apache Flink的架构流程@TOCApache Flink的架构流程Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。实现了鱼与熊掌兼得的实时计算框架，它既包含了如Storm一样的低延迟的实时计算又完成了如Spark Streaming高吞吐量保证 exactly-once 语义。其实现流批一体，本身的流式框架实现批处理是将批处理当作特殊的流处理来实现。下面是Apache Flink的基础架构这是一张再熟悉不过的图片，几乎了解过Flink

2020-10-22 14:44:57 200

原创 Redis安装踩坑

1、解压redis-3.xxx.tar.gz包后，进入redis-3.xxx，执行make，立马报很多错误与gcc有关，linux环境是否是最小化安装：解决：yum -y install gcc gcc-c++2、安装后，make出现：zmalloc.h:50:31: 致命错误改换命令：make MALLOC=libc...

2020-09-10 16:02:06 69

原创关于Flink中time与watermark的理解

关于Flink中time与watermark的理解空间和时间只是我们人类思考的模式，并不是我们赖以生存的条件。——爱因斯坦时间属性是流处理中最重要的一个方面，是流处理系统的基石之一；流计算是一种无限数据形式，如果没有时间属性，许多问题将不能解决，下面将列举和时间列紧密相关，或者说必须在这个时间列上才能进行的操作：Over 窗口聚合Group by 窗口聚合OrderBy 排序时间概念：在flink中，时间的核心是 Processing Time 和 Event Time（Row Time

2020-08-21 14:59:12 441

转载 Spark内存机制

Spark内存管理Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解...

2019-12-21 17:13:43 307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除