大数据领域的重要基础设施——Kafka入门篇（诞生背景与主要特点介绍）

最新推荐文章于 2024-07-24 19:41:25 发布

明明跟你说过

最新推荐文章于 2024-07-24 19:41:25 发布

阅读量1.2k

点赞数 30

分类专栏：数据流专家：Kafka探索文章标签：运维大数据 kafka

本文链接：https://blog.csdn.net/weixin_53269650/article/details/139119762

版权

数据流专家：Kafka探索专栏收录该内容

5 篇文章 0 订阅

订阅专栏

🐇明明跟你说过：个人主页

🏅个人专栏：《数据流专家：Kafka探索》🏅

🔖行路有良友，便是天堂🔖

一、引言

1、Kafka简介

Apache Kafka 是一个开源的流处理平台，由 LinkedIn 开发并捐献给 Apache 软件基金会，用于实时数据流处理。Kafka 设计用于处理实时数据流，具有高吞吐量、可扩展性和容错性，广泛用于构建实时数据管道和流处理应用。

2、Kafka诞生背景

Apache Kafka 诞生于 LinkedIn，并由该公司的工程团队开发。

以下是 Kafka 诞生的背景和动机：

1. 数据流处理需求

在 2000 年代后期，LinkedIn 作为一个快速增长的职业社交平台，面临着处理大量数据流的挑战。每天都有数百万的用户进行各种操作，如更新个人资料、发帖、点赞、评论等，这些操作产生了大量的实时数据。

2. 传统消息系统的局限性

在 Kafka 出现之前，LinkedIn 使用传统的消息系统来处理数据流，但这些系统存在以下局限性：
扩展性差：传统消息队列系统（如 ActiveMQ、RabbitMQ）在面对 LinkedIn 的数据量和吞吐需求时，表现出扩展性不足的问题。
数据持久性和容错性不强：很多传统系统在处理大规模数据时，数据持久化和容错能力不足，容易造成数据丢失。
实时处理能力有限：这些系统难以高效地处理和分发实时数据流，导致数据处理延迟增加。

3. 统一的数据管道需求
LinkedIn 希望构建一个统一的数据管道系统，能够处理各种数据源和目标应用之间的实时数据流，满足以下要求：

高吞吐量和低延迟：能够处理大规模数据流，并保证数据流的低延迟传输。
扩展性：系统能够水平扩展，以适应不断增长的数据量和用户需求。
持久性和容错性：确保数据在传输过程中不会丢失，并具备高可用性。
多种消费者支持：支持多个不同的消费者应用，并确保每个消费者都能独立地消费数据，不影响其他消费者。

4. Kafka 的设计理念
为了解决上述问题，LinkedIn 的工程师 Jay Kreps、Neha Narkhede 和 Jun Rao 设计并开发了 Kafka。Kafka 的设计理念包括：

日志数据结构：使用日志作为核心数据结构，保证数据的有序性和持久性。
分区机制：通过将主题分成多个分区，实现数据的并行处理和扩展性。
分布式系统：Kafka 被设计为一个分布式系统，具备高可用性和容错能力。
高效的存储和传输：优化了磁盘和网络 IO，确保高效的数据存储和传输。

5. Kafka 的开源和发展
2010年，LinkedIn 将 Kafka 开源，并贡献给 Apache 软件基金会，成为 Apache 顶级项目。开源后的 Kafka 被广泛采用，并逐渐发展成为流处理领域的事实标准。它不仅在互联网公司中得到了广泛应用，也被金融、零售、物联网等多个行业所接受，用于构建实时数据处理管道和流处理应用。

3、Kafka发展历程

1. 初期发展阶段 (2010-2012)

2010年：

LinkedIn 的工程师 Jay Kreps、Neha Narkhede 和 Jun Rao 开始开发 Kafka，以解决 LinkedIn 内部大规模数据流处理的需求。

2011年：

Kafka 作为开源项目首次发布在 GitHub 上。其设计目标是提供一个高吞吐量、低延迟的分布式消息系统。
最初版本的 Kafka 主要专注于消息持久化和传输，并具有基本的发布-订阅功能。

2012年：

Kafka 成为 Apache 软件基金会的孵化项目。
在 LinkedIn 内部，Kafka 逐渐取代了传统的消息队列系统，成为数据管道的核心组件。

2. 成长与成熟阶段 (2013-2016)

2013年：

Kafka 0.8 版本发布，引入了复制（replication）功能，增强了数据的持久性和容错能力。此版本标志着 Kafka 从简单的消息队列系统演变为一个更为可靠的分布式系统。

2014年：

Kafka 从 Apache 孵化器毕业，成为 Apache 顶级项目。
Kafka 的社区开始壮大，越来越多的公司开始采用 Kafka 作为其数据流处理和实时分析的基础架构。

2015年：

Kafka 0.9 版本发布，引入了新的消费者 API，改进了消费者的可靠性和性能。
Kafka Streams API 被提出，用于流数据处理，使得开发者可以直接在 Kafka 上进行流处理操作，而不需要外部的流处理框架。

2016年：

Kafka 0.10 版本发布，Kafka Streams 正式作为一部分集成到 Kafka 中，增强了 Kafka 在流处理方面的能力。
Confluent 公司成立，由 Kafka 的原始开发者创办，专注于 Kafka 的商业化和生态系统的构建，提供企业级支持和附加功能。

3. 现代化阶段 (2017-至今)

2017年：

Kafka 1.0 版本发布，这是一个重要的里程碑，标志着 Kafka 达到了生产级稳定性和成熟度。
引入了事务（transactions）支持，允许跨多个主题和分区的原子性写操作，增强了 Kafka 在金融等高可靠性场景中的应用。

2018年：

Kafka 2.0 版本发布，进一步改进了性能和稳定性。
引入了对 Kafka Connect 的增强，简化了数据源和目标系统与 Kafka 集成的过程。

2019年：

Kafka 2.3 版本发布，增加了对分区重分配（partition rebalancing）的改进，增强了扩展性和可用性。

2020年：

Kafka 2.6 版本发布，引入了更多的安全特性和监控工具，增强了对云环境的支持。

2021年：

Kafka 3.0 版本发布，提供了更多的性能优化和功能增强，例如改进的控制器高可用性和新的快照机制。

2022年及以后：

Kafka 继续发布新版本，增加了更多的功能和优化，特别是在云原生部署、性能优化和开发者体验方面进行了显著改进。

主要里程碑

Kafka Connect：一个用于简化数据集成的框架，支持将外部系统的数据源和目标系统与 Kafka 集成。
Kafka Streams：一个用于构建实时流处理应用的库，简化了在 Kafka 上进行流处理的开发。
Confluent Platform：由 Confluent 公司提供的企业级 Kafka 平台，包含了 Kafka 及其附加组件，提供了更丰富的功能和支持。

二、Kafka基础

1、Kafka的主要特点

1. 高吞吐量

高效的数据传输：Kafka 设计为能够处理高吞吐量的数据流，每秒可以处理数百万条消息。
批量处理：使用批量发送和压缩技术，减少了网络延迟和 I/O 开销。
零拷贝技术：Kafka 采用了零拷贝技术，从而进一步提高了数据传输的效率。

2. 低延迟

实时处理：Kafka 支持实时数据流处理，能够在毫秒级别内传递消息，满足对低延迟的需求。
快速数据传输：优化的网络通信和 I/O 处理确保了数据在集群内外快速传输。

3. 可扩展性

水平扩展：Kafka 可以通过增加 Broker 和分区来水平扩展，以适应不断增长的数据量和吞吐需求。
分布式架构：Kafka 的分布式设计使其能够在多台服务器上运行，并能有效管理扩展。

4. 高可用性

复制机制：Kafka 支持分区副本，确保数据在多个 Broker 上存在副本，从而提供高可用性和容错能力。
自动恢复：当 Broker 故障时，其他 Broker 会自动接管工作，确保系统的持续可用。

5. 持久性

日志存储：Kafka 将消息持久化到磁盘中，使用日志结构的存储方式，保证了数据的持久性和顺序性。
数据冗余：通过分区副本机制，Kafka 提供了数据冗余，确保数据不会因为单点故障而丢失。

6. 灵活的发布-订阅模型

主题和分区：Kafka 使用主题和分区的概念，生产者将消息发送到主题，消费者订阅主题以获取消息。
消费者组：Kafka 支持消费者组，每个消费者组内的消费者可以并行消费不同分区的数据，实现负载均衡。

7. 强大的数据处理能力

Kafka Streams：一个用于构建实时流处理应用的库，允许在 Kafka 上直接进行流处理操作。
Kafka Connect：一个用于连接 Kafka 和外部系统的框架，简化了数据的导入和导出操作。

8. 事务支持

原子性操作：Kafka 支持事务，允许在多个分区和主题上进行原子性写操作，确保数据的一致性。
准确性保障：通过事务，Kafka 提供了“恰好一次”（exactly-once）语义，确保数据不会重复处理或丢失。

9. 安全性

认证和授权：Kafka 支持多种安全机制，包括 SSL/TLS 加密、SASL 认证以及基于 ACL 的访问控制，确保数据传输和访问的安全性。
加密：支持对数据进行加密传输，防止数据在传输过程中被窃取或篡改。

10. 丰富的生态系统和工具支持

生态系统：Kafka 的生态系统包括 Kafka Streams、Kafka Connect 等，支持多种数据源和目标系统。
第三方工具：广泛支持各种第三方工具和框架，如 Apache Flink、Apache Spark、Confluent Platform 等，增强了 Kafka 的功能和应用范围。

Apache Kafka 以其高吞吐量、低延迟、可扩展性、高可用性、持久性和灵活的发布-订阅模型等特点，成为处理实时数据流和构建数据管道的首选平台。它不仅能够满足大规模数据流处理的需求，还提供了丰富的工具和生态系统，支持各种复杂的数据处理和集成场景。

2、Kafka的优势

高吞吐量和低延迟：Kafka能够处理每秒数百万条消息，并具有极低的延迟。这使得Kafka非常适合处理大量实时数据，如日志收集、指标监控和事件流处理等应用场景。与其他消息队列系统相比，Kafka在吞吐量和延迟方面表现更为出色。
分布式架构和可伸缩性：Kafka采用分布式架构，可以轻松扩展到成千上万的生产者和消费者，以应对不断增长的数据流量和工作负载。这种可伸缩性使得Kafka能够处理更大规模的数据流，并且随着业务的发展而扩展。
持久性和可靠性：Kafka将所有的消息持久化存储在磁盘上，确保数据不会丢失。它采用多副本机制，使得数据可以在集群中的多个节点间进行复制，提供故障容忍和高可用性。即使在节点故障的情况下，Kafka仍能保持数据的可靠传输。
多订阅者模型：Kafka支持多个消费者订阅同一个主题，每个消费者可以以自己的速度独立地消费消息。这种多订阅者的模型使得数据可以被多个消费者同时处理和分析，提高了数据的处理效率和灵活性。
生态系统丰富：Kafka拥有丰富的生态系统，包括流处理框架、连接器、监控工具等。这些工具和框架可以与Kafka无缝集成，提供更多的功能和灵活性。这使得Kafka在处理复杂的数据流场景时更加得心应手。
消息顺序性和堆积性：由于Kafka设计之初是作为日志流平台和运营消息管道平台，它实现了消息顺序和海量堆积。这意味着在Kafka中，消息的顺序是得到保证的，同时即使消费者处理速度跟不上生产者发送速度，Kafka也可以将消息堆积起来等待消费者处理。
高性能和低开销：Kafka内部采用消息的批量处理、zero-copy机制等优化手段，使得数据的存储和获取是本地磁盘顺序批量操作，具有O(1)的复杂度，消息处理的效率很高。与其他消息队列系统相比，Kafka在性能上更具优势。