A叶子叶
大数据平台、数据仓库、数据分析/挖掘、应用开发、深度学习、爬虫
展开
-
数据库与MPP数仓(二十八):关于vertica消费kafka的由浅入深
在实际生产中把vertica定位于面向业务层的数据仓库,其下必然需要一层原始数据的清洗层,实时性不高可以直接基于hdfs抽取数据,实时性高的最好使用流处理工具处理后加载,无论如何在业务定位上最好不要让vertica直接进行数据的频繁插入和修改更新操作,如果一定要这么做,vertica提供了kafka-collector的方式加载数据,效率很快,本文由浅入深介绍该方式的本地测试以及生产环境应该怎么用...原创 2022-08-31 14:24:19 · 939 阅读 · 0 评论 -
kafka实践(十七): Logi-KafkaManager研究
跟vue类似,react的前端请求由proxy代理和请求路径组成,在api模块把请求路径封装成方法名,比如/api/v1/normal/clusters/的get方法,webpack和api中定义如下://webpack中 proxy: { '/api/v1/': { // target: 'http://127.0.0.1:8080', target: 'http://10.179.37.199:8008', // target:原创 2021-09-06 17:11:23 · 863 阅读 · 0 评论 -
kafka实践(十六):Kafka设计亮点
Kafka使用直观感受就是快,与其他消息队列比强于吞吐量与读写速率,哪些设计亮点让它能够如此快,这里做个总结原创 2021-06-15 16:06:57 · 806 阅读 · 6 评论 -
kafka实践(十五): 滴滴开源Kafka管控平台 Logi-KafkaManager研究
滴滴开源了其Kafka 监控与管控平台 Logi-KafkaManager,因为有30+个集群的维护经验,使用过kafka-manager,kafka-eagle,kafka-mirrorkaker工具,所以很期待能有1个工具能够整合kafka所有工具优点于一身,这样对于生产环境中kafka集群的管理、监控、资源分配、平滑升级、数据跨机房传输是非常好的,所以在研究kafka源码的同时研究一下Logi-KafkaManager的源码和使用,滴滴提供了体验地址:http://117.51.150.133:808原创 2021-01-25 11:25:45 · 14070 阅读 · 30 评论 -
kafka实践(十三):kafka集群(broker)管理的源码解析
broker是kafka集群服务的主要载体,主要是持久化消息以及将消息推送到消费端,其包含内容很多,如同步机制(水印机制)、备份机制、分区机制、存储机制、kafka控制器等;一、broker消息设计Java内存模型(JMM)中保存对象的开销很大,可能花费比消息本身2倍的大小来保存数据,字段重排也解决该类问题,因此kafka使用JavaNIO的ByteBuffer来保存信息,同时依赖文件系统提供的页缓存而非Java的堆缓存,ByteBuffer是紧凑的二进制结构而不需要padding操作,省去原创 2020-11-30 22:18:35 · 5785 阅读 · 3 评论 -
kafka实践(十二):生产者(KafkaProducer)源码详解和调试
本节对producer的源码解析以熟悉生产者数据发送过程,关于使用Idea对kafka源码编译和调试,可以翻看之前的博客:本地kafka源码的编译和调试,本次分析的版本是kafka-1.0.0;一、环境准备在前面已经完成win环境下zk(3.4.12版本)的运行,并对kafka源码编译, 参考:本地kafka源码的编译和调试,在idea的run-->debug-->中新增configuration来创建topic:yzg(3分区1备份),本地启动运行效果:原创 2020-11-29 19:39:08 · 6599 阅读 · 6 评论 -
Kafka实践(七):Kafka自带工具及常见异常处理文档
Kafka自带常用工具Kafka的bin目录下shell脚本是kafka自带的管理工具,提供topic的创建/删除/配置修改、消费者的监控、分区重载、集群健康监控、收发端TPS压测、跨机房同步等能力,Kafka运维者可以使用这些工具进行集群的管理;Kafka节点的启/停------kafka 运行:bin/kafka-server-start.sh -daemon ../conf...原创 2019-10-09 16:49:51 · 6155 阅读 · 0 评论 -
Kafka实践(六):使用 Kafka MirrorMaker 跨机房传输数据
工作中遇到Kafka跨机房传输到远程机房的场景,之前的方案是使用Flume消费后转发到目标kafka,当topic增多并且数据量变大后,维护性较差且Flume较耗费资源; 在数据中心建设之处需要考虑数据的备份的同步机制,异地双活和主备架构均需要数据的同步;一、原理 参考官网:http://kafka.apache.org/10/documentation.html#...原创 2019-08-19 21:13:05 · 7835 阅读 · 2 评论 -
Kafka实践(五):KafkaProducer和KafkaConsumer的API使用
参考官网文档:http://kafka.apache.org/10/javadoc/index.html?org/apache/kafka/clients/producer/KafkaProducer.htmlKafka的使用KafkaProducer类发送数据,kafka Producer是线程安全的,可以在多个线程之间共享生产者实例,其发送模型如下: 使用IDEA配置maven po...原创 2019-08-19 17:47:47 · 8963 阅读 · 0 评论 -
kafka实践(四):使用idea对Kafka编译和本地运行调试
工作内容涉及Kafka的部署、优化、实战,当前集群业务数据规模达到400亿条/天,对Kafka特性有一定了解,想进一步学习Kafka的工作原理则需要系统学习其基础模块,因此想使用IDEA配置Kafka源码分析;1、安装配置JAVA:JDK版本至少为1.7,最好是1.8及以上,配置环境变量后使用java -version命令来查看当前JDK的版本;原创 2019-08-05 15:21:03 · 7427 阅读 · 0 评论 -
kafka实践(三):监控利器kafka-eagle
Kafka Eagle安装使用手册概述Kafka作为当前最流行的消息中间件广泛用于流式数据的中间存储,其界面化管理工具有多种,其中Kafka Eagle(简称KE)能够实现比Kafka的其他界面化管理工具更加丰富的操作和监控选项,最突出的功能是使用Kafka提供的JMX端口实现了Kafka读取数据的图表化监控、移植ZKCli到前端操作、Kafka SQL实时消费,并提供用户管理功能。参...原创 2019-07-30 08:55:17 · 9186 阅读 · 0 评论 -
kafka实践(二):部署Kafka需要衡量的问题
转载:https://www.cnblogs.com/swordfall/p/10193336.html该博文部分参考《Apache kafka实战》-胡夕的第三章Kafka线上环境部署,关于最佳实践的配置方面的建议,kafka在设计之初就需要考虑以下4个方面的问题:吞吐量/延时 消息持久化 负载均衡和故障转移 伸缩性1.1吞吐量/延时对于任何一个消息引擎而言,吞吐量都是至关...原创 2019-07-26 17:02:42 · 6051 阅读 · 1 评论 -
Kafka实践(八):Kafka的控制器controller
控制器组件(Controller),是 Apache Kafka 的核心组件。它的主要作用是在 Apache ZooKeeper 的帮助下管理和协调整个 Kafka 集群。集群中任意一台 Broker 都能充当控制器的角色,但是,在运行过程中,只能有一个 Broker 成为控制器,行使其管理和协调的职责。换句话说,每个正常运转的 Kafka 集群,在任意时刻都有且只有一个控制器。官网上有...原创 2019-10-25 10:36:43 · 6269 阅读 · 1 评论 -
kafka实践(一):手动修改Kafka消费偏移量的2种方式
工作中遇到过问题:包括数据Invalid Message和Failed_to_UNcompress等,会造成消费端的iterator损坏,导致消费进程挂掉,需要手动跳过某些数据;Kafka的偏移量有保存在zookeeper和kafka中topic(_consumer_offset)2种方式;1、修改保存在zookeeper中的偏移量:使用./zkCli.sh -server xxxx...原创 2019-07-12 10:23:05 · 10966 阅读 · 0 评论 -
流式数据采集和计算(三):Flume、Logstash、Filebeat调研报告
概述数据的价值在于把数据变成行动。这里一个非常重要的过程是数据分析。提到数据分析,大部分人首先想到的都是Hadoop、流计算、机器学习等数据加工的方式。从整个过程来看,数据分析其实包含了4个过程:采集,存储,计算,展示。大数据的数据采集工作是大数据技术中非常重要、基础的部分,具体场景使用合适的采集工具,可以大大提高效率和可靠性,并降低资源成本。Flume、Logstash和Filebeat都是...原创 2019-07-09 10:45:11 · 10316 阅读 · 0 评论 -
流式数据采集和计算(九):读取kafka过滤后写入kafka
需求:读取topic数据,进行json解析后,发到kafka;1、json转换类:package applog;import com.alibaba.fastjson.JSONObject;import org.apache.flink.api.java.tuple.Tuple5;/** * @Description: 解析原始消息的辅助类 * @author: yzg ...原创 2019-07-08 16:09:46 · 8238 阅读 · 2 评论 -
流式数据采集和计算(一):Flume、Kafka、Storm基础
Flume官方guide:http://flume.apache.org/FlumeUserGuide.htmlflume是一个分布式、可靠、高可用的海量日志采集、聚合、传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。Flume的可靠性 当节点出现故障时,日志能够...原创 2018-12-16 13:11:01 · 7115 阅读 · 0 评论 -
kafka实践(九):kafka/bin目录下的sh脚本工具
后续将从kafka源码分析角度学习,接《kafka实践四:使用IDEA阅读Kafka源码》内容,https://blog.csdn.net/yezonggang/article/details/98212267。idea中打开kafka源码,第一个目录即为bin目录,其中提供各种内置的集群管理工具(启停、优化)。# kafka/bin目录下的集群管理工具connect-distri...原创 2020-04-20 11:22:22 · 6312 阅读 · 0 评论 -
kafka实践(十一):kafka的topic 分区重载
Adding servers to a Kafka cluster is easy, just assign them a unique broker id and start up Kafka on your new servers. However these new servers will not automatically be assigned any data partitions,...原创 2018-11-02 16:35:40 · 5634 阅读 · 0 评论 -
数据库与MPP数仓(七):vertica系统管理语句及实时消费kafka
--看锁表及锁的类型select object_name,lock_mode,transaction_id,request_timestamp,transaction_description from locks;select transaction_id from locks where object_name like '%servefc%';--查历史查询的记录select sch...原创 2018-10-24 10:06:16 · 6193 阅读 · 1 评论 -
Kafka设计与架构
一、概念 Kafka最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编...原创 2018-04-24 10:02:13 · 5363 阅读 · 1 评论