flink以及采集工具
文章平均质量分 53
flink以及采集工具
大数据00
好记性不如烂笔头
展开
-
FlinkCDC初体验
【代码】FlinkCDC初体验。原创 2024-08-16 10:28:48 · 489 阅读 · 0 评论 -
数据采集工具之Canal
canal.instance.master.address=192.168.140.1:3306 ###修改为自己的mysql信息。到此,我们可以实时获取到mysql数据库的各种操作日志,接下来需要将数据写到哪里 可以按需实现。本文主要介绍canal采集mysql数据的tcp、datahub(kafka)模式如何实现。启动:bin/startup.sh。到此,canal服务端配置完成。c、canal客户端开发。打开看看即可,不需要调整。2、TCP模式的实现。原创 2024-08-08 11:05:52 · 436 阅读 · 0 评论 -
Flume 自定义oraclesink
一/自定义类package cn.com.sgcc.jibei;import java.util.Date;public class Aclineend { private String mrid; private String pathname; private String substation_id; private String b...原创 2019-10-14 14:37:18 · 1398 阅读 · 0 评论 -
数据采集工具之Flume
本文主要实现数据到datahub的采集过程。datahub插件下载。原创 2024-08-07 15:34:15 · 452 阅读 · 0 评论 -
数据采集工具之Logstash
【快传】我给你发了 lo...ar.gz, 快来看看 https://www.alipan.com/t/LmKbT2eJ9ELywpcXBLHg 点击链接即可保存。「阿里云盘」APP ,无需下载极速在线查看,视频原画倍速播放。5、logstash timestamp 增量到datahub。3、logstash 全量 mysql到datahub。4、logstash number增量到datahub。本文主要实现logstash到datahub的功能。2、logstash文件到datahub。原创 2024-08-07 15:11:54 · 251 阅读 · 0 评论 -
Flink总结
state大小:为保证Exactly-Once准确一次,对于有两个以上输入管道的 Operator,checkpoint barrier需要对齐,即接受到较快的输入管道的barrier后,它后面数据会被缓存起来但不处理,直到较慢的输入管道的barrier也到达。下游算子收到barrier之后,会暂停自己的数据处理过程,然后将自身的相关状态制作成快照,并保存到指定的持久化存储中,最后向CheckpointCoordinator报告自身快照情况,同时向自身所有下游算子广播该barrier,恢复数据处理。原创 2024-04-02 10:58:32 · 615 阅读 · 0 评论 -
Flink消费kafka乱序
Kafka主题的分区策略不当:如果一条消息被发送到了多个分区,那么这些消息可能会并行地被多个消费者实例处理,导致顺序不一致。分区内的消息写入不是顺序的:在写入Kafka时,如果没有正确地指定分区和键(key),可能导致消息在分区内的顺序被打乱。Flink任务的并行度不适当:如果Flink任务的并行度过高,会导致一个主题分区被多个任务实例并行处理,降低了顺序性。调整Flink任务的并行度,使之与Kafka主题的分区数量相匹配,以保持消息的顺序。确保从最早的记录开始读取,保证了消息的顺序。是消费者群组的ID。原创 2024-04-01 14:48:55 · 564 阅读 · 0 评论 -
Flink RoaringBitmap去重
Roaring64Bitmap 去重只适合去重整形情况原创 2023-09-25 18:22:24 · 1007 阅读 · 0 评论 -
侧输出流SideOutput
主要功能是通过侧数据流 拆分流数据。原创 2023-08-28 16:57:19 · 161 阅读 · 0 评论 -
Blink 会话窗口解决双流关联ID关联不上问题
通过将留资信息实时同步holo,利用holo做维表的方式,进店记录表通过会话窗口延迟5分钟关联确保数据完全能关联到不会丢失。业务:用户留资在前,然后才会有跟进记录,数据上留资时间必然在进店跟进之前,最小相差时间毫秒级别。表2 是用户留资信息。表1 是用户进店记录。原创 2023-05-08 14:42:55 · 234 阅读 · 0 评论 -
Flink+MapState+Ontimer+Enum+Flink去重综合应用
Flink+MapState+Ontimer+Enum+Flink去重综合应用原创 2023-02-24 09:55:42 · 340 阅读 · 0 评论 -
Blink-DataStream Demo案例
建议您使用maven-shade-plugin插件的Relocation功能,解决JAR包冲突的问题。在作业运行时,如果界面上出现如下类似的错误,表示存在JAR包冲突。原创 2022-11-23 11:55:12 · 807 阅读 · 0 评论 -
maven打包插件
打包依赖插件原创 2022-10-31 14:43:28 · 213 阅读 · 0 评论 -
Blink 使用小记
1、各组件版本 Blink 3.6.0 Datahub Hologres 0.10 Rds 8.0/5.7 Maxcompute 3.52、维表关联代码2.1Maxcompute维表2.2Rds维表2.3Hologres维表3、维表关联代码4、数据Sink4.1MaxcomputeSink4.2HologresSink4.3DatahubSink5、自定义函数6、DataStreamAPI2.1 Maxcomp......原创 2022-04-06 13:42:58 · 1872 阅读 · 0 评论 -
用户画像之实时标签
Blink 实时标签体系原创 2021-12-31 11:15:27 · 3139 阅读 · 0 评论 -
Blink-DataHub connector Maven依赖转化
1、实时计算Datastream完全兼容开源Flink 1.5.2版本。下载并解压flink-1.5.2-compatible分支到本地。说明下载文件中的datahub-connector中同样实现了DataHub Sink功能,具体实现请参见下载文件中的DatahubSinkFunction.java和DatahubSinkFunctionExample.java。2、在CMD命令窗口,进入alibaba-flink-connectors-flink-1.5.2-compatible目录后,执行.转载 2021-12-10 14:20:47 · 770 阅读 · 0 评论 -
BLINK-DataStream开发
1、pom.xml注意:<dependency> <groupId>com.alibaba.flink</groupId> <artifactId>datahub-connector</artifactId> <version>0.1-SNAPSHOT</version> <classifier>jar-with-...原创 2021-12-10 14:16:00 · 2457 阅读 · 1 评论 -
Flink小记
阿里云实时数仓实践:基于Flink的资讯场景实时数仓-最佳实践-阿里云原创 2021-11-29 15:42:52 · 1102 阅读 · 0 评论 -
Flink 反压原理
1、两个线程情况下Slot一个槽位可以跑一个任务也可以跑多个任务,如果没设置优化,一般一个槽只跑一个任务。反压是任务之间其中一个任务慢了 其他任务需要等待。如下两个依赖上下游任务执行过程:NetworkBufferPool中提供可用资源,是属于taskmanager的,NetworkBufferPool中含有2048个bufferlocalbuffer库512个bufffer,当然512不是一次申请的,即当数据生成时,先到本地buffer request,本地buffer非空闲时,然..原创 2021-08-05 11:36:26 · 810 阅读 · 0 评论 -
Flink 实时数据写如oracle blob
1、连接kafkapackage cn.com.sgcc.jibei.kafka.videoimage;import cn.com.sgcc.jibei.util.PropertyUtil;import org.apache.commons.lang3.StringUtils;import org.apache.flink.api.common.functions.FilterFun...原创 2019-10-21 13:09:16 · 1005 阅读 · 0 评论 -
Flink 实时数据写如oracle clob字段的实现
1、自定义类package cn.com.sgcc.jibei.event_warning;import java.math.BigDecimal;public class Event_warning { private BigDecimal merge_count; private BigDecimal id; private String code; ...原创 2019-10-21 13:06:19 · 776 阅读 · 0 评论 -
Flink 实时数据写入oracle
一/自定义类package cn.com.mycompany.InsertAndUpdate.a_calc_day_power;import java.math.BigDecimal;public class A_calc_day_power { private BigDecimal id; private String area_code; private...原创 2019-10-14 11:19:07 · 4467 阅读 · 0 评论