自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

翻译 Structured Streaming: A Declarative API for Real-Time Applications in Apache Spark译文

下面翻译一下,Spark 2.4 版本后舍弃 Spark Streaming 转向 Structured Streaming的趋势了Structured Streaming: A Declarative API for Real-TimeApplications in Apache SparkAbstractWith the ubiquity of real-time data, organizations need streaming systems that are scalable, easy

2021-07-13 16:56:06 145

原创 Kafka中文件存储格式

Kafka高效文件存储设计特点:1、Kafka把topic中一个parition大文件分成多个小文件段,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。2、通过索引信息可以快速定位message和确定response的最大大小。3、通过index元数据全部映射到memory,可以避免segment file的IO磁盘操作。4、通过索引文件稀疏存储,可以大幅降低index文件元数据占用空间大小。5、零拷贝技术的使用。Kafka部分名词解释如下:Broker:消息中间件处理结点

2021-03-02 16:52:41 3007

原创 Kafka结构框架自解(三)

三、Kafka的消费者在消费者模式中,总体存在两种基本的消费模式:一种是push(推)一种是pull(拉取),Kafka对应的消费者不同,所以消费者需要的传输速率要求是不同的,所以这样采用pull的方式最为合适,需要多少数据,消费者自己从kafka中拉取多少数据。pull的模式也存在其缺点,消费者不知道什么时候Kafka有数据,有多少数据,所以如果 kafka 没有数据,消费者可能会陷入循环中,一直返回空数据。针对这一点,Kafka 的消费者在消费数据时会传入一个时长参数 timeout,如果当前没有

2020-12-29 20:34:53 243

原创 Kafka结构框架自解(二)

二、Kafka生产者2.1 ack机制上一篇中介绍了Kafka本身中一些存储、主从以及数据一致性的机制,这里将会进一步解释Kafka中生产者的运行原理,在前面说到ISR机制时,提到ack机制。这里将会进行详细阐述,Kafka的生产者与Kafka之间的通信机制——ack方案优点半数以上完成同步,就发送ack延迟低全部 完成 同步 ,才发送ack选举新的 leader 时,容忍 n 台节点的故障,需要 n+1 个副本当然,两者的缺点也是横明显的方案缺点

2020-12-16 20:20:54 131

原创 Kafka结构框架自解(一)

**kafka简介**Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。(本人主要配合flink进行实时分析)kafka存在的意义,而不是直接将数据灌倒Flink:一、解耦性,让flink这一实时计算框架专注于计算;二、缓存与消峰,当大数据量短时间冲入计算时,是不符合实时计算的理念;实时计算相对应批计算有一个重要的特点,是将时间换取空间,每时每刻的计算替代数据收集完毕后每天集中的跑批;kafka让数据有序被消费,将顶点的峰值数据量

2020-12-14 20:00:11 108

原创 Apache Flink的架构流程

Apache Flink的架构流程@TOCApache Flink的架构流程Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。实现了鱼与熊掌兼得的实时计算框架,它既包含了如Storm一样的低延迟的实时计算又完成了如Spark Streaming高吞吐量保证 exactly-once 语义。其实现流批一体,本身的流式框架实现批处理是将批处理当作特殊的流处理来实现。下面是Apache Flink的基础架构这是一张再熟悉不过的图片,几乎了解过Flink

2020-10-22 14:44:57 200

原创 Redis安装踩坑

1、解压redis-3.xxx.tar.gz包后,进入redis-3.xxx,执行make,立马报很多错误与gcc有关,linux环境是否是最小化安装:解决:yum -y install gcc gcc-c++2、安装后,make出现:zmalloc.h:50:31: 致命错误改换命令:make MALLOC=libc...

2020-09-10 16:02:06 69

原创 关于Flink中time与watermark的理解

关于Flink中time与watermark的理解空间和时间只是我们人类思考的模式,并不是我们赖以生存的条件。——爱因斯坦时间属性是流处理中最重要的一个方面,是流处理系统的基石之一;流计算是一种无限数据形式,如果没有时间属性,许多问题将不能解决,下面将列举和时间列紧密相关,或者说必须在这个时间列上才能进行的操作:Over 窗口聚合Group by 窗口聚合OrderBy 排序时间概念:在flink中,时间的核心是 Processing Time 和 Event Time(Row Time

2020-08-21 14:59:12 441

转载 Spark内存机制

Spark内存管理Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解...

2019-12-21 17:13:43 307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除