Kafka
贾诩是也
走过很多弯路,一直坚强、执着的眺望着远方、、、一个听着小米布斯故事成长起来的老码农。不忘初心,方得始终、、、给自己鼓劲加油,为这个时代华丽的时代喝彩!
展开
-
scribe、chukwa、kafka、flume日志系统对比
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。本文主要从设计架构,负载原创 2017-09-01 00:32:50 · 235 阅读 · 0 评论 -
Kafka实战-Kafka到Storm
1.概述 在《Kafka实战-Flume到Kafka》一文中给大家分享了Kafka的数据源生产,今天为大家介绍如何去实时消费Kafka中的数据。这里使用实时计算的模型——Storm。下面是今天分享的主要内容,如下所示:数据消费Storm计算预览截图 接下来,我们开始分享今天的内容。2.数据消费 Kafka的数据消费,是由Storm去消费,通过KafkaSpout将数据翻译 2017-12-29 11:32:14 · 747 阅读 · 0 评论 -
Kafka实战-数据持久化
1.概述 经过前面Kafka实战系列的学习,我们通过学习《Kafka实战-入门》了解Kafka的应用场景和基本原理,《Kafka实战-Kafka Cluster》一文给大家分享了Kafka集群的搭建部署,让大家掌握了集群的搭建步骤,《Kafka实战-实时日志统计流程》一文给大家讲解一个项目(或者说是系统)的整体流程,《Kafka实战-Flume到Kafka》一文给大家介绍了Kafka的数翻译 2017-12-29 11:32:44 · 1648 阅读 · 0 评论 -
Kafka项目实战-用户日志上报实时统计之应用概述
1.概述 本课程的视频教程地址:《Kafka实战项目之应用概述》 本课程是通过一个用户实时上报日志来展开的,通过介绍 Kafka 的业务和应用场景,并带着大家搭建本 Kafka 项目的实战开发环境。下面我们来看看本课程有哪些课时,如下图所示: 接下来,我们开始第一课时的学习:《Kafka 回顾》。2.内容2.1 Kafka 回顾 本课时简述 Kafka 平台部署转载 2017-12-30 09:44:27 · 1833 阅读 · 0 评论 -
Kafka项目实战-用户日志上报实时统计之分析与设计
1.概述 本课程的视频教程地址:《Kafka实战项目之分析与设计》 本课程我通过一个用户实时上报日志案例作为基础,带着大家去分析Kafka这样一个项目的各个环节,从而对项目的整体设计做比较合理的规划,最终让大家能够通过本课程去掌握类似Kafka项目的分析与设计。下面,我给大家介绍本课程包含的课时内容,如下图所示: 接下来,我们开始第一课时的学习:《项目整体概述》。2.内转载 2017-12-30 09:45:06 · 668 阅读 · 1 评论 -
Kafka项目实战-用户日志上报实时统计之编码实践
1.概述 本课程的视频教程地址:《Kafka实战项目之编码实践》 该课程我以用户实时上报日志案例为基础,带着大家去完成各个KPI的编码工作,实现生产模块、消费模块,数据持久化,以及应用调度等工作, 通过对这一系列流程的演示,让大家能够去掌握Kafka项目的相关编码以及调度流程。下面,我们首先来预览本课程所包含的课时,他们分别有: 接下来,我们开始第一课时的学习:《数据生产实翻译 2017-12-30 09:45:26 · 1124 阅读 · 1 评论 -
Kafka深入 - 消费接口分析
1.概述 在 Kafka 中,官方对外提供了两种消费 API,一种是高等级消费 API,另一种是低等级的消费 API。在 《高级消费 API》一文中,介绍了其高级消费的 API 实现。今天给大家介绍另一种消费 API。2.内容 在使用过 Kafka 的高级消费 API 后,我们知道它是一种高度抽象的消费 API,使用起来简单,方便,但是对于某些特殊的需求我们可能要用到第二种更加底层转载 2017-12-30 09:45:42 · 724 阅读 · 0 评论 -
Kafka深入 - SQL 引擎分享
1.概述 大多数情况下,我们使用 Kafka 只是作为消息处理。在有些情况下,我们需要多次读取 Kafka 集群中的数据。当然,我们可以通过调用 Kafka 的 API 来完成,但是针对不同的业务需求,我们需要去编写不同的接口,在经过编译,打包,发布等一系列流程。最后才能看到我们预想的结果。那么,我们能不能有一种简便的方式去实现这一部分功能,通过编写 SQL 的方式,来可视化我们的结果。今天原创 2017-12-30 09:46:01 · 439 阅读 · 0 评论 -
Kafka深入 - SQL 代码实现
1.概述 上次给大家分享了关于 Kafka SQL 的实现思路,这次给大家分享如何实现 Kafka SQL。要实现 Kafka SQL,在上一篇《Kafka - SQL 引擎分享》中分享了其实现的思路,核心包含数据源的加载,以及 SQL 树的映射。今天笔者给大家分享相关实现的代码。2.内容 这里,将数据映射成 SQL Tree 是使用了 Apache Calcite 来承接这部翻译 2017-12-30 09:46:22 · 913 阅读 · 0 评论 -
Kafka深入 - Kafka Eagle, 消息监控
1.概述 在开发工作当中,消费 Kafka 集群中的消息时,数据的变动是我们所关心的,当业务并不复杂的前提下,我们可以使用 Kafka 提供的命令工具,配合 Zookeeper 客户端工具,可以很方便的完成我们的工作。随着业务的复杂化,Group 和 Topic 的增加,此时我们使用 Kafka 提供的命令工具,已预感到力不从心,这时候 Kafka 的监控系统此刻便尤为显得重要,我们需要观察翻译 2017-12-30 09:46:45 · 3601 阅读 · 1 评论 -
Kafka深入 - 分区备份实战
1.概述 在 Kafka 集群中,我们可以对每个 Topic 进行一个或是多个分区,并为该 Topic 指定备份数。这部分元数据信息都是存放在 Zookeeper 上,我们可以使用 zkCli 客户端,通过 ls 和 get 命令来查看元数据信息。通过 log.dirs 属性控制消息存放路径,每个分区对应一个文件夹,文件夹命名方式为:TopicName-PartitionIndex,该文件夹翻译 2017-12-30 09:47:04 · 1022 阅读 · 0 评论 -
Kafka实战-Flume到Kafka
1.概述 前面给大家介绍了整个Kafka项目的开发流程,今天给大家分享Kafka如何获取数据源,即Kafka生产数据。下面是今天要分享的目录:数据来源Flume到Kafka数据源加载预览 下面开始今天的分享内容。2.数据来源 Kafka生产的数据,是由Flume的Sink提供的,这里我们需要用到Flume集群,通过Flume集群将Agent的日志收集分发到Kafka(翻译 2017-12-29 11:31:46 · 1270 阅读 · 0 评论 -
Kafka实战-实时日志统计流程
1.概述 在《Kafka实战-简单示例》一文中给大家介绍来Kafka的简单示例,演示了如何编写Kafka的代码去生产数据和消费数据,今天给大家介绍如何去整合一个完整的项目,本篇博客我打算为大家介绍Flume+Kafka+Storm的实时日志统计,由于涉及的内容较多,这里先给大家梳理一个项目的运用这些技术的流程。下面是今天的内容目录:项目流程FlumeKafkaStorm 下面开转载 2017-12-29 11:31:11 · 2252 阅读 · 1 评论 -
Kafka实战-KafkaOffsetMonitor
1.概述 前面给大家介绍了Kafka的背景以及一些应用场景,并附带上演示了Kafka的简单示例。然后,在开发的过程当中,我们会发现一些问题,那就是消息的监控情况。虽然,在启动Kafka的相关服务后,我们生产消息和消费消息会在终端控制台显示这些记录信息,但是,这样始终不够友好,而且,在实际开发中,我们不会有权限去一直观看终端控制台,那么今天就为大家来介绍Kafka的一个监控系统——KafkaO转载 2017-12-29 11:30:37 · 223 阅读 · 0 评论 -
Kafka深入 - Eagle 源码解读
1.概述 在《Kafka 消息监控 - Kafka Eagle》一文中,简单的介绍了 Kafka Eagle这款监控工具的作用,截图预览,以及使用详情。今天笔者通过其源码来解读实现细节。目前该项目已托管于 Github 之上,作者编写了使用手册,告知使用者如何安装,部署,启动该系统。但对于实现的细节并未在参考手册中详细指出。这里,笔者通过本篇博文,来详细解读其实现细节。相关资料文献地址如转载 2017-12-31 09:50:03 · 612 阅读 · 0 评论 -
Kafka深入 - 源码剖析
1.概述 在对Kafka使用层面掌握后,进一步提升分析其源码是极有必要的。纵观Kafka源码工程结构,不算太复杂,代码量也不算大。分析研究其实现细节难度不算太大。今天笔者给大家分析的是其核心处理模块,core模块。2.内容 首先,我们需要对Kafka的工程结构有一个整体的认知度,Kafka 大家最为熟悉的就是其消费者与生产者。然其,底层的存储机制,选举机制,备份机制等实现细节,需要翻译 2017-12-31 09:50:23 · 671 阅读 · 0 评论 -
Kafka深入 - 存储机制和副本
1.概述 Kafka 快速稳定的发展,得到越来越多开发者和使用者的青睐。它的流行得益于它底层的设计和操作简单,存储系统高效,以及充分利用磁盘顺序读写等特性,和其实时在线的业务场景。对于Kafka来说,它是一个分布式的,可分区的,多副本,多订阅者的,基于Zookeeper统一协调的分布式日志系统。常见的可以用于系统日志,业务日志,消息数据等。那今天笔者给大家分析Kafka的存储机制和副本的相关原创 2017-12-31 09:50:49 · 2979 阅读 · 2 评论 -
Kafka深入 - Streams 剖析
1.概述 Kafka Streams 是一个用来处理流式数据的库,属于Java类库,它并不是一个流处理框架,和Storm,Spark Streaming这类流处理框架是明显不一样的。那这样一个库是做什么的,能应用到哪些场合,如何使用。笔者今天就给大家来一一剖析这些内容。2.内容 首先,我们研究这样一个库,需要知道它是做什么的。Kafka Streams是一个用来构建流处理应用的库,翻译 2017-12-31 09:51:04 · 575 阅读 · 0 评论 -
Kafka深入 - Elasticsearch 与 Kafka 整合剖析
1.概述 目前,随着大数据的浪潮,Kafka 被越来越多的企业所认可,如今的Kafka已发展到0.10.x,其优秀的特性也带给我们解决实际业务的方案。对于数据分流来说,既可以分流到离线存储平台(HDFS),离线计算平台(Hive仓库),也可以分流实时流水计算(Storm,Spark)等,同样也可以分流到海量数据查询(HBase),或是及时查询(ElasticSearch)。而今天笔者给大家分原创 2017-12-31 09:52:02 · 2325 阅读 · 1 评论 -
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
转自:http://www.cnblogs.com/zhengah/p/4729304.html个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实 时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。可以带着下转载 2017-11-03 18:21:43 · 411 阅读 · 0 评论 -
Kafka实战-入门
1.概述 经过一个多月的时间观察,业务上在集成Kafka后,各方面还算稳定,这里打算抽时间给大家分享一下Kafka在实际场景中的一些使用心得。本篇博客打算先给大家入个门,让大家对Kafka有个初步的了解,知道Kafka是做什么的,下面是本篇博客的目录内容:Kafka背景Kafka应用场景Kafka架构原理 下面开始今天的博客分享内容。2.Kafka背景 Kafka它本翻译 2017-12-29 11:23:17 · 382 阅读 · 0 评论 -
Kafka实战-集群搭建
Kafka初识1、Kafka使用背景在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题:我们想分析下用户行为(pageviews),以便我们设计出更好的广告位我想对用户的搜索关键词进行统计,分析出当前的流行趋势有些数据,存储数据库浪费,直接存储硬盘效率又低 这些场景都有一个共同点:数据是由上游模块产生,上游模块,使用上游模块的数据计算、统计、分析,这原创 2017-12-29 11:25:41 · 313 阅读 · 0 评论 -
Kafka实战-Kafka Cluster
1.概述 在《Kafka实战-入门》一篇中,为大家介绍了Kafka的相关背景、原理架构以及一些关键知识点,本篇博客为大家来赘述一下Kafka Cluster的相关内容,下面是今天为大家分享的目录:基础软件的准备Kafka Cluster的部署Send MessagesHA特性 下面开始今天的内容分享。2.基础软件的准备2.1 ZK 由于Kafka Cluster需转载 2017-12-29 11:27:51 · 3770 阅读 · 0 评论 -
Kafka实战-简单示例,API介绍
1.概述 上一篇博客《Kafka实战-Kafka Cluster》中,为大家介绍了Kafka集群的安装部署,以及对Kafka集群Producer/Consumer、HA等做了相关测试,今天我们来开发一个Kafka示例,练习如何在Kafka中进行编程,下面是今天的分享的目录结构:开发环境ConfigureAPIConsumerProducer截图预览 下面开始今天的内容分享。原创 2017-12-29 11:29:04 · 488 阅读 · 0 评论 -
Kafka深入 - Offset Storage
1.概述 目前,Kafka 官网最新版[0.10.1.1],已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实,早在 0.8.2.2 版本,已支持存入消费的 offset 到Topic中,只是那时候默认是将消费的 offset 存放在 Zookeeper 集群中。那现在,官方默认将消费的offset存储在 Kafka翻译 2017-12-30 09:47:21 · 684 阅读 · 0 评论