天冬忘忧
码龄3年
关注
提问 私信
  • 博客:126,838
    126,838
    总访问量
  • 100
    原创
  • 10,398
    排名
  • 1,894
    粉丝
  • 68
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2021-12-01
博客简介:

天冬忘忧的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    906
    当月
    66
个人成就
  • 获得2,606次点赞
  • 内容获得2次评论
  • 获得1,980次收藏
  • 代码片获得570次分享
创作历程
  • 100篇
    2024年
成就勋章
TA的专栏
  • Flume
    4篇
  • Flink
    14篇
  • SQL
    18篇
  • Kafka
    12篇
  • Java
    3篇
  • Git
    2篇
  • Spark
    13篇
  • Hadoop
    2篇
  • Python
    5篇
  • FineBi
    1篇
  • Redis
    6篇
  • Azkaban
    2篇
  • Sqoop
    2篇
  • DolphinScheduler
    6篇
  • Datax
    6篇
  • kettle
    4篇
  • MongoDB
    1篇
  • IDEA运行中的小问题
    1篇
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

343人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink 核心知识总结:窗口操作、TopN 案例及架构体系详解

在大数据处理领域,Flink 凭借其卓越的流批一体处理能力、高效的状态管理以及精准的时间语义把控,成为众多开发者应对复杂数据场景的得力工具。本文将围绕 Flink 的三大关键板块展开深度剖析,即 FlinkSQL 的窗口操作(涵盖滚动、滑动、累积窗口以及不同时间语义下的应用)、窗口 TopN 需求实现案例,以及 Flink 架构体系(详细解读各个核心组件及概念),旨在为读者清晰勾勒 Flink 技术框架的全貌,助力深入理解与高效运用。
原创
发布博客 15 小时前 ·
807 阅读 ·
19 点赞 ·
0 评论 ·
6 收藏

Flink SQL 实战:从基础开发到 Kafka 与 MySQL 交互

在大数据处理领域,Apache Flink 凭借其强大的流批一体处理能力备受青睐,而 Flink SQL 更是为开发者提供了高效便捷的数据处理方式,能以类 SQL 的语法轻松应对复杂的数据场景。今天,就让我们深入探究 Flink SQL 的开发步骤、核心概念以及常见的使用案例,包括与 Kafka 和 MySQL 的联动操作。
原创
发布博客 16 小时前 ·
952 阅读 ·
22 点赞 ·
0 评论 ·
10 收藏

MySQL 高效批量删除海量数据策略解析

在日常的数据库管理与运维工作中,面对海量数据的删除操作,如何做到高效、安全且不影响业务正常运转,是我们常常需要攻克的难题。今天,就结合实际遇到的几种典型场景,深入剖析在 MySQL 中应对不同量级、不同结构表数据删除的有效策略。
原创
发布博客 2024.12.03 ·
843 阅读 ·
25 点赞 ·
0 评论 ·
27 收藏

HiveSQL 中判断字段是否包含某个值的多种方法详解

在使用 HiveSQL 进行数据处理与分析时,常常会遇到需要判断某字段是否包含特定值的场景,比如在员工信息表中查找名字包含特定字符的员工记录等。本文将详细介绍在 HiveSQL 中实现这一目的的多种方法,并对比它们各自的特点与适用场景,帮助大家更高效、灵活地处理数据。
原创
发布博客 2024.12.03 ·
853 阅读 ·
36 点赞 ·
0 评论 ·
20 收藏

Flink 中双流 Join 的深度解析与实战

在大数据实时处理领域,Apache Flink 凭借其强大的流处理能力备受青睐。当面临多流数据关联分析场景时,双流 Join 操作至关重要。Flink DataStream API 贴心地提供了join、coGroup、intervalJoin三个算子助力我们达成双流 Join,接下来将深入探究它们的原理、使用方式及差异。
原创
发布博客 2024.12.02 ·
925 阅读 ·
31 点赞 ·
0 评论 ·
24 收藏

Flink 中维表 Join 的实现方式与优化策略

在 Flink 大数据处理框架的实际应用场景里,常常会碰到这样的需求:进入 Flink 的实时数据,需要关联存储在外部设备(像 MySQL、HBase 等)中的数据(也就是维表),以此来得出完整准确的计算结果。本文将深入探讨 Flink 中维表 Join 的多种实现方式及其优缺点,助力大家在不同业务场景下做出合理抉择。
原创
发布博客 2024.12.02 ·
1157 阅读 ·
19 点赞 ·
0 评论 ·
24 收藏

Flink四大基石之CheckPoint(检查点) 的使用详解

在大数据流式处理领域,Apache Flink 凭借其卓越的性能和强大的功能占据重要地位。而理解 Flink 中的 Checkpoint(检查点)、重启策略以及 SavePoint(保存点)这些关键概念,对于保障流处理任务的稳定性、容错性以及可维护性至关重要。本文将深入剖析它们的原理、用法,并结合实际代码示例展示其效果,希望能帮助大家更好地掌握 Flink 相关知识。
原创
发布博客 2024.12.01 ·
1629 阅读 ·
17 点赞 ·
0 评论 ·
20 收藏

Flink四大基石之State(状态) 的使用详解

在大数据流处理领域,Apache Flink 凭借其卓越的性能和丰富的功能备受青睐。而 Flink 中的状态(State)管理机制,更是支撑复杂流处理任务的关键支柱。无论是数据去重、模式匹配还是窗口聚合分析,状态管理都发挥着不可或缺的作用。本文将深入浅出地剖析 Flink 状态相关知识,结合实际代码案例助你理解这一重要概念。
原创
发布博客 2024.11.30 ·
1193 阅读 ·
26 点赞 ·
0 评论 ·
23 收藏

Flink四大基石之Time (时间语义) 的使用详解

Watermark 是一个单独计算出来的时间戳Watermark = 当前最大的事件时间 - 最大允许的延迟时间(乱序度)Watermark可以通过改变窗口的触发时机 在 一定程度上解决数据乱序或延迟达到的问题Watermark >= 窗口结束时间 时 就会触发窗口计算(窗口中得有数据)延迟或乱序严重的数据还是丢失, 但是可以通过调大 最大允许的延迟时间(乱序度) 来解决, 或 使用后面要学习的侧道输出流来单独收集延迟或乱序严重的数据,保证数据不丢失!
原创
发布博客 2024.11.29 ·
1240 阅读 ·
23 点赞 ·
0 评论 ·
19 收藏

Flink四大基石之窗口(Window)使用详解

本文深入探讨 Flink 中高级 API 里窗口(Window)的相关知识,涵盖为什么需要窗口、其控制属性、应用代码结构、生命周期、分类,以及窗口函数的各类细节,并辅以实例进行讲解,旨在助力开发者透彻理解并熟练运用 Flink 的窗口机制处理流数据。
原创
发布博客 2024.11.28 ·
1231 阅读 ·
34 点赞 ·
0 评论 ·
16 收藏

Flink--API 之 Sink 的使用解析

在大数据处理领域,Apache Flink 以其强大的流处理和批处理能力备受青睐。而在 Flink 的数据处理流程中,Sink 操作起着至关重要的作用。经过一系列 Transformation 转换操作后,只有调用了 Sink 操作,才会产生最终的计算结果,这些数据可以写入到文件、输出到指定的网络端口、消息中间件、外部的文件系统或者是打印到控制台等。本文将深入探讨 Flink 在批处理中常见的 Sink 操作,涵盖多种类型及使用场景,帮助读者全面掌握这一关键知识点。
原创
发布博客 2024.11.28 ·
924 阅读 ·
27 点赞 ·
0 评论 ·
30 收藏

Flink 物理分区全解析:策略、应用与实战

在大数据处理领域,Apache Flink 凭借其强大的流处理和批处理能力备受青睐。而物理分区作为 Flink 数据处理流程中至关重要的一环,能够让用户根据实际需求灵活调配数据流向,优化数据分布,提升处理效率与性能。本文将深入探讨 Flink 的物理分区策略,包括各类内置分区器的原理、用法,以及如何自定义分区规则,并结合实战代码帮助读者更好地理解与运用。
原创
发布博客 2024.11.28 ·
1051 阅读 ·
14 点赞 ·
0 评论 ·
27 收藏

Flink--API 之Transformation-转换算子的使用解析

在大数据处理领域,Apache Flink 凭借其强大的流处理和批处理能力备受青睐。而转换算子作为 Flink 编程模型中的关键部分,能够对数据进行灵活多样的处理操作,满足各种复杂业务场景需求。本文将深入介绍 Flink 中常见的转换算子,包括 map、flatMap、filter、keyBy、reduce 等,并结合详细代码示例讲解其使用方法,同时探讨 union、connect 等合并连接操作以及侧输出流等特性,帮助读者全面掌握 Flink 转换算子的精髓。
原创
发布博客 2024.11.27 ·
1600 阅读 ·
27 点赞 ·
0 评论 ·
13 收藏

Flink--API 之 Source 使用解析

在大数据处理领域,Apache Flink 作为一款强大的流式计算框架,既能应对流处理场景,也可处理批处理任务。而数据来源(Data Sources)作为整个计算流程的 “源头活水”,其多样性与合理运用至关重要。本文将深入剖析 Flink 中 Data Sources 的相关知识,并结合丰富代码示例,助力大家透彻理解与灵活运用。
原创
发布博客 2024.11.27 ·
966 阅读 ·
18 点赞 ·
0 评论 ·
20 收藏

Flink--API 从任务开发到任务提交流程解析与DataStream的介绍

在大数据处理领域,Flink 凭借其卓越的流批一体特性、高效的实时处理能力以及丰富的 API,备受开发者青睐。今天,我们将深入探讨如何开发 Flink 任务,并将其打包提交到集群上运行,涵盖从基础概念到具体编码、打包、提交的完整流程,希望能帮助大家在 Flink 实践之路上少踩坑、多收获。
原创
发布博客 2024.11.26 ·
1087 阅读 ·
32 点赞 ·
0 评论 ·
10 收藏

Flink 安装与入门:开启流式计算新时代

在当今大数据蓬勃发展的时代,数据处理的时效性愈发关键。传统基于先存储再批量处理的数据方式,在面对诸如网站实时监控、异常日志即时分析等场景时,显得力不从心。随着 5G、物联网等技术的兴起,海量数据如潮水般涌来,且对实时处理需求激增,流式计算应运而生,而 Flink 作为流式计算领域的佼佼者,正散发着独特魅力,接下来就让我们深入探究 Flink 的安装与入门知识。
原创
发布博客 2024.11.25 ·
1323 阅读 ·
20 点赞 ·
0 评论 ·
25 收藏

Flume 与 Kafka 整合实战

在大数据处理的生态系统中,Flume 和 Kafka 都是非常重要的组件。Flume 擅长收集、聚合和传输大量的日志数据等,而 Kafka 则是一个高性能的分布式消息队列,能够处理海量的实时数据。将 Flume 和 Kafka 进行整合,可以构建强大的数据处理管道,实现数据的高效采集、传输和处理。本文将详细介绍 Flume 和 Kafka 整合的两种常见方式:Kafka 作为 Source 和 Kafka 作为 Sink。
原创
发布博客 2024.11.24 ·
1630 阅读 ·
28 点赞 ·
0 评论 ·
20 收藏

Kafka-Eagle 监控的安装与使用及Kafka-UI界面的安装----构建高效的 Kafka 集群监控体系

在大数据处理的世界中,Kafka 作为一款强大的分布式消息队列系统,广泛应用于数据传输与处理的各个环节。然而,在生产环境中,对 Kafka 集群的有效监控至关重要。本文将详细介绍如何使用 Kafka-Eagle 框架来监控 Kafka 集群,以及相关的安装与配置步骤,帮助大家构建一个稳定且可视化的监控环境。
原创
发布博客 2024.11.23 ·
929 阅读 ·
21 点赞 ·
0 评论 ·
24 收藏

Kafka 数据倾斜:原因、影响与解决方案

在大数据处理领域,Kafka 作为一款高性能的分布式消息队列系统,被广泛应用于数据传输、实时流处理等场景。然而,在使用 Kafka 的过程中,数据倾斜问题可能会悄然出现,影响系统的性能和数据处理的准确性。本文将深入探讨 Kafka 数据倾斜的概念、产生原因、带来的问题以及相应的解决策略,帮助读者更好地应对这一挑战。
原创
发布博客 2024.11.22 ·
1356 阅读 ·
20 点赞 ·
0 评论 ·
29 收藏

Kafka 分区分配及再平衡策略深度解析与消费者事务和数据积压的简单介绍

本文将深入探讨 Kafka 中不同的分区分配策略,包括 Range、RoundRobin、Sticky 和 CooperativeSticky,以及它们在各种场景下的再平衡表现,并结合实际案例进行详细分析,并对消费者事务和数据积压进行简单介绍。
原创
发布博客 2024.11.22 ·
1322 阅读 ·
24 点赞 ·
0 评论 ·
27 收藏
加载更多