暴躁的阿呆-CSDN博客

原创 Flink基础

flink基础官网：https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/问题假设1）在我们app操作的用户行为日志怎么能够实时处理，以便于进行实时分析，做出反馈？2）在618或者双11数据激增时候怎么保证数据的高吞吐，低延迟的实时消费？3）数据消费的时候怎么保证上下游的数据一致性，可靠性，容错性？4）怎么做好上下游链路数据的监控，以便于出现问题的时候即使反馈或者程序容错？简介在数据量激增的时代，各种业务场景都有

2023-08-01 17:34:02 110

原创高并发写mysql

1）使用连接池连接池可以减少每次连接 MySQL 数据库的开销，提高连接复用率，从而提高系统的并发处理能力。常见的连接池有 C3P0、Druid 等。2）使用批量插入批量插入可以减少每次插入的开销，提高插入效率。可以通过 JDBC 的 addBatch() 和 executeBatch() 方法实现批量插入。3）使用事务事务可以保证多个操作的原子性，避免数据不一致的情况。可以通过 JDBC 的 setAutoCommit(false) 和 commit() 方法实现事务。4）使用分库分表。

2023-06-09 17:53:23 1252

原创 Flink代码消费Kafka到Kafka/hdfs保证端到端一致性

这样可以将 Kafka 数据写入到 HDFS 中，并且开启 Flink 的 Checkpointing 机制，以保证数据的一致性。这样可以保证在进行 Checkpoint 时，所有的 Sink 操作都会被执行一次，从而保证数据的一致性。

2023-05-22 14:44:49 407 2

原创 HDFS元数据实现原理及fsimage在数据治理中的应用

1）目前集群总文件数量 2.6亿，平均文件大小不到 30M，如何快速定位出小文件较多目录进行处理？目前集群总存储量 6.3PB，日增 100TB2）如何快速定位哪些目录每天增长过快？3）如何定位出几个月未使用过的冷数据？然后对数据进行冷热分离4）主备两个 NameNode 的作用分别是？其高可用是怎么做的？

2023-05-09 15:38:41 200

原创 Kafka 生产者

1)分区的原因方便在集群中扩展，每个 Partition 可以通过调整以适应它所在的机器，而一个 topic又可以有多个 Partition 组成，因此整个集群就可以适应任意大小的数据了;可以提高并发，因为可以以 Partition 为单位读写了。2）分区的原则我们需要将 producer 发送的数据封装成一个 ProducerRecord 对象。(1)指明 partition 的情况下，直接将指明的值直接作为 partiton 值;

2023-05-08 18:43:44 90

原创 kafka基础

Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue)，主要应用于大数据实时处理领域。传统消息队列的应用场景使用消息队列的好处：1)解耦允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。2)可恢复性系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。

2023-05-06 16:23:51 111 1

原创 Flink-cep基础

• 复杂事件处理（Complex Event Processing，CEP）• Flink CEP是在 Flink 中实现的复杂事件处理（CEP）库• CEP 允许在无休止的事件流中检测事件模式，让我们有机会掌握数据中重要的部分• 一个或多个由简单事件构成的事件流通过一定的规则匹配，然后输出用户想得到的数据 — 满足规则的复杂事件• 目标：从有序的简单事件流中发现一些高阶特征• 输入：一个或多个由简单事件构成的事件流• 处理：识别简单事件之间的内在联系，多个符合一定规则的简单事件构成复杂事件。

2023-03-21 14:34:26 152

转载 Mysql的主从复制

为什么需要主从复制？1、在业务复杂的系统中，有这么一个情景，有一句sql语句需要锁表，导致暂时不能使用读的服务，那么就很影响运行中的业务，使用主从复制，让主库负责写，从库负责读，这样，即使主库出现了锁表的情景，通过读从库也可以保证业务的正常运作。2、做数据的热备3、架构的扩展。业务量越来越大，I/O访问频率过高，单机无法满足，此时做多库的存储，降低磁盘I/O访问的频率，提高单个机器的I/O性能。1、什么是mysql的主从复制？MySQL 主从复制是指数据可以从一个MySQL数据库服务器主

2022-03-28 16:13:38 572 1

转载 Hive计算引擎Tez简介和使用

Hive计算引擎Tez简介和使用一、前言Hive默认计算引擎时MR，为了提高计算速度，我们可以改为Tez引擎。至于为什么提高了计算速度，可以参考下图：用Hive直接编写MR程序，假设有四个有依赖关系的MR作业，上图中，绿色是Reduce Task，云状表示写屏蔽，需要将中间结果持久化写到HDFS。Tez可以将多个有依赖的作业转换为一个作业，这样只需写一次HDFS，且中间节点较少，从而大大提升作业的计算性能。二、安装包准备1）下载tez的依赖包：http://tez.apache.org2）拷贝

2022-03-28 10:54:54 3551

weixin_45604164的博客