kafka
文章平均质量分 64
kafka
宝哥大数据
大数据、机器学习、深度学习
展开
-
Hudi集成Flink-写入方式
参考: https://chbxw.blog.csdn.net/article/details/119841434。CDC(change data capture) 保证了完整数据变更,目前主要有两种方式。1、kafak 作为 源表,flinksql 消费kafka。1、使用 mysql-cdc 监听 binlog。3、将 kafka 中数据 写入 hudi。2、kafka 作为 sink表。接下来我们主要介绍 第二种方式。2、创建hudi目标表。3、写入sink 表。原创 2023-04-14 00:08:25 · 1824 阅读 · 0 评论 -
Flink SQL --维表join
flink sql 维表join原创 2022-10-27 16:57:53 · 3104 阅读 · 0 评论 -
flink sql clinet 实战:upsert kafka connector -- flink-1.12
flink sql client: upsert-kafka connector原创 2022-10-20 20:46:44 · 1996 阅读 · 2 评论 -
Datastream Connectors--kafka----flink-1.12
flink datastream connector kafka原创 2022-07-17 08:22:09 · 839 阅读 · 2 评论 -
Flink with Avro Confluent Kafka-Registry
一、前言Kafka Schema-Registry二、Flink with Avro Confluent Kafka-Registry2.1、生成User.java2.1.1、user.avsc 数据格式文件{ "namespace": "example.avro", "type": "record", "name": "User", "fields": [ {"name": "id", "type": "int", "default": 0}, {"name": "n原创 2021-08-19 11:44:10 · 720 阅读 · 0 评论 -
Kafka Schema-Registry
一、为什么需要Schema-Registry Confluent 公司为了能让 Kafka 支持 Avro 序列化,创建了 Kafka Schema Registry 项目,项目地址为 https://github.com/confluentinc/schema-registry 。对于存储大量数据的 kafka 来说,使用 Avro 序列化,可以减少数据的存储空间提高了存储量,减少了序列化时间提高了性能。 Kafka 有多个topic,里面存储了不同种类的数据,每种数据都对应着一个 Avro sche原创 2021-08-11 09:54:57 · 7245 阅读 · 0 评论 -
Kafka-Connect实践
一、Kafka-Connect介绍 Kafka是一个使用越来越广的消息系统,尤其是在大数据开发中(实时数据处理和分析)。为集成其他系统和解耦应用,之前经常使用Producer来发送消息到Broker,并使用Consumer来消费Broker中的消息。Kafka Connect是到0.9版本才提供的并极大的简化了其他系统与Kafka的集成。Kafka Connect运用用户快速定义并实现各种Connector(File,Jdbc,Hdfs等),这些功能让大批量数据导入/导出Kafka很方便。二原创 2021-08-10 14:17:22 · 616 阅读 · 0 评论 -
Confluent介绍
一、Confluent介绍 LinkedIn有个三人小组出来创业了—正是当时开发出Apache Kafka实时信息列队技术的团队成员,基于这项技术Jay Kreps带头创立了新公司Confluent。Confluent的产品围绕着Kafka做的。1.1、什么是Confluent Platform? Confluent Platform 是一个流数据平台,能够组织管理来自不同数据源的数据,拥有稳定高效的系统。 Confluent Platform 很容易的建立实时数据管道和流应用。通过将多个来原创 2021-08-10 10:47:07 · 1175 阅读 · 0 评论 -
Kafka 2.8.0新特性 (kafka之后不在需要zookeeper)
以下是Kafka 2.8.0版本中解决JIRA问题的摘要,有关该版本的完整文档,入门指南以及关于该项目的信息,请参考Kafka官方文档有关升级的注意事项:在升级你的集群之前,请仔细阅读此版本的升级文档。升级有关不兼容性和破坏性的变更,性能变化以及可能影响Kakfa生产的任何其他变化。Kafka 2.8.0包括许多重要的新功能。以下是重要变化的总结。抢先体验,kafka通过自我管理的仲裁来替代ZooKeeper(很快,Apache Kafka将不再需要ZooKeeper。)增加集群描述API在SA原创 2021-07-14 09:37:51 · 507 阅读 · 0 评论 -
Kafka真的可以保证Exactly-once?
Kafka真的可以保证Exactly-once?原创 2021-03-17 13:25:11 · 192 阅读 · 0 评论 -
DWM 层 -- 访客 UV 计算
一、需求分析与思路 UV,全称是 Unique Visitor,即独立访客,对于实时计算中,也可以称为 DAU(Daily Active User),即每日活跃用户,因为实时计算中的 uv 通常是指当日的访客数。 那么如何从用户行为日志中识别出当日的访客,那么有两点:➢ 其一,是识别出该访客打开的第一个页面,表示这个访客开始进入我们的应用➢ 其二,由于访客可以在一天中多次进入应用,所以我们要在一天的范围内进行去重...原创 2021-03-10 22:41:18 · 438 阅读 · 0 评论 -
计算用户行为日志 DWD 层
2.2、计算用户行为日志 DWD 层2.2.1、准备用户行为日志 DWD 层 前面采集的日志数据已经保存到 Kafka 中,作为日志数据的 ODS 层,从 kafka 的ODS 层读取的日志数据分为 3 类, 页面日志、启动日志和曝光日志。这三类数据虽然都是用户行为数据,但是有着完全不一样的数据结构,所以要拆分处理。将拆分后的不同的日志写回 Kafka 不同主题中,作为日志 DWD 层。 页面日志输出到主流,启动日志输出到启动侧输出流,曝光日志输出到曝光侧输出流2.2.2 主要任务➢ 识别新老原创 2021-03-09 08:21:23 · 725 阅读 · 0 评论 -
整合Kafka消费点击流消息
在application.conf中添加配置# Kafka click_log topic名称input.topic.click_log="ods_chb_click_log"读取配置val `input.topic.click_log` = config.getString("input.topic.click_log")创建ClickLogETL类,整合Kafka在etl包下创建ClickLogETL,从MQBaseETL继承实现process方法,整合Kafka,并测试打印消费数据原创 2021-03-07 11:19:02 · 193 阅读 · 0 评论 -
整合Kafka消费评论消息
在application.conf中添加配置# kafka 评论 topic名称input.topic.comments="ods_chb_shop_comments"读取配置val `input.topic.comments` = config.getString("input.topic.comments")创建CommentsETL类,整合Kafka在etl包下创建CommentsETL,从MQBaseETL继承实现process方法,并测试打印消费数据/** * 点击流处原创 2021-03-07 11:17:47 · 186 阅读 · 0 评论 -
整合kafka消费字符串类型消息
定义MQBase消息etl抽象类后面不少的业务逻辑(购物车、评论、点击流等)需要共用一份Kafka数据,抽取抽象类的目的是共用一个FlinkKafkaConsumer,因为后面创建FlinkKafkaConsumer整合Kafka需要使用到Flink流式运行环境,需要在主构造器中传入Flink流式运行环境。该ETL抽象类需要从BaseETL继承。/** * 消费kafka中的数据 * @param env */abstract class MQBaseETL(env:StreamExecutio原创 2021-03-07 11:16:25 · 649 阅读 · 1 评论 -
整合Kafka消费binlog消息
在抽象类MySqlBaseETL中,实现Flink整合Kafka。操作步骤:1、自定义ProtoBuf反序列化因为Canal采集到的数据是以ProtoBuf形式推入到Kafka中的,故应该使用ProtoBuf来进行反序列化2、Flink整合Kafka3、创建订单实时etl处理类4、编写App测试自定义ProtoBuf反序列化反序列化主要是将Byte数组转换为之前封装在common工程的RowData类在com.chb.shop.realtime.utils包下创建CanalRowDat原创 2021-03-07 11:14:40 · 712 阅读 · 0 评论 -
kafka目录导读(入门到进阶)
一、部署1.1、安装部署二、概念及理论2.1、2.2、kafka文件存储三、整合3.1、kafka+flume3.2、flume+kafka+stormflume之kafkaSinkstrom之KafkaSpout测试问题原创 2020-05-06 15:48:58 · 489 阅读 · 0 评论 -
commit 提交失败, 消费者自动死掉
commit 提交失败, 消费者自动死掉, 报错:org.apache.kafka.clients.consumer.CommitFailedException: Commit cannot be completed since the group has already rebalanced and assigned the partitions to another member. T...原创 2018-09-12 14:57:56 · 3368 阅读 · 0 评论 -
flume+kafka+storm整合01
具体实现1、实现Spout, 因为Storm源数据是从kafka中获取, 所以使用storm提供的KafkaSpout //由于Spout是从kafka中获取数据, Storm提供了KafkaSpout //配置kafkaSpout //kafka的topic, 是为了方便从哪儿拿数据 String topic = "testFlum原创 2017-03-20 18:36:15 · 1002 阅读 · 0 评论 -
kafka 出现错误问题
1. kafka创建topic出现:Error while executing topic command org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /brokers/ids原因: 没有在kafka目录下创建zookeeper ,指定myid解决:cd /uardata10/c原创 2017-06-11 17:29:25 · 6966 阅读 · 0 评论 -
Kafka--Producer&Consumer
一、Producer二、Consumer三、四、出现问题4.1、org.apache.kafka.common.serialization.Serdes 的依赖 <!-- org.apache.kafka.common.serialization.Serdes --> <dependency> <groupId>org.a原创 2017-07-25 18:19:53 · 956 阅读 · 1 评论 -
kafka--Topics and Logs
Topics and Logs翻译 2017-06-28 18:51:15 · 487 阅读 · 0 评论 -
kafka安装部署
kafka安装原创 2017-03-16 07:32:16 · 2846 阅读 · 5 评论 -
kafak--producer生产消息
一、生产者原创 2018-01-03 23:17:31 · 2600 阅读 · 4 评论 -
kafak--producer生产消息2
kafka2.10-0.10.2.1kafak–producer生产消息中学习了Producer发送消息,基本流程为5步 第一步:初始化kafka参数 第二步:创建生产者 第三步:创建一条消息 第四步:发送消息 第五步:异步发送中处理消息发送是否成功结果下面使用一个流程图来表示发送消息到 Kafka 集群的基本步骤: 二、源码解析2.1、序列化key,value2.2、接着数据发送给分原创 2018-01-04 07:56:43 · 568 阅读 · 0 评论 -
kafka---partitioner及自定义
分区器partitioner原创 2018-01-04 17:18:16 · 8571 阅读 · 1 评论 -
kafka整合flume
一、kafka和flume的安装 apache-flume-1.5.2-bin kafka_2.10-0.10.2.1 kafka安装部署 flume学习01—安装 二、flume监控某个目录,将数据发送kafka2.1、flume source 使用SpoolDir 监控一个目录下的文件内容SpoolDir监控目录下文件, 处理后的文件修改文件名 问题...原创 2018-03-07 23:43:21 · 471 阅读 · 0 评论 -
flume 自定义Sink之kafkaSink
在flume1.5.2中没有kafkasink,需要自定义KafkaSink在fluem-1.6.0中提供了kafkasinkkafkaSink就是将Channel中的输出通过sink写到kafka,所有kafka相当与一个生产者的功能1.1、官网的开发者文档Developer Guide问题 1、Cannot Append to Appender! App...原创 2018-03-08 00:05:48 · 5896 阅读 · 1 评论 -
Kafka文件存储
参考 : Kafka文件存储机制那些事1、topic 按照partition存储,每个partition为一个目录,partiton命名规则为topic名称+有序序号2、partition中的存储–分段(segment)下面是segment存储方式: 一个partition被切割成多个相同...原创 2018-05-25 22:30:12 · 4139 阅读 · 0 评论 -
Zero-Copy
参考: https://blog.csdn.net/u013256816/article/details/52589524原创 2018-05-26 08:36:10 · 349 阅读 · 0 评论 -
kafka命令行调试命令
一、生产与消费#消费./bin/kafka-console-consumer.sh --bootstrap-server master:9092,slave1:9092,slave2:9092 --topic topic2#生产./bin/kafka-console-producer.sh --broker-list master:9092,slave1:9092,slave2:...原创 2018-06-04 09:35:32 · 2157 阅读 · 1 评论 -
kafka消费少了
消费数据少了, 生产540条, 消费158。topic报错 ERROR [ReplicaFetcherThread-0-1002], Error for partition [test,64] to broker 1002:org.apache.kafka.common.errors.UnknownTopicOrPartitionException: This server does ...原创 2018-06-10 22:38:06 · 1275 阅读 · 0 评论 -
flume+kafka+storm整合00
一、安装flume,kafka, storm 的安装在下面三篇文章: flume:1.6.0 kafka:注意这里最好下载scala2.10版本的kafka,因为scala2.10版本的兼容性比较好和2.11版本差别太大 flume学习01—安装 kafka安装部署 storm安装部署二、各个部分调试2.1、flumeflume Source之SpoolD...原创 2017-03-19 11:40:46 · 1539 阅读 · 1 评论