自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Flink基础

flink基础官网:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/问题假设1)在我们app操作的用户行为日志怎么能够实时处理,以便于进行实时分析,做出反馈?2)在618或者双11数据激增时候怎么保证数据的高吞吐,低延迟的实时消费?3)数据消费的时候怎么保证上下游的数据一致性,可靠性,容错性?4)怎么做好上下游链路数据的监控,以便于出现问题的时候即使反馈或者程序容错?简介在数据量激增的时代,各种业务场景都有

2023-08-01 17:34:02 110

原创 高并发写mysql

1)使用连接池连接池可以减少每次连接 MySQL 数据库的开销,提高连接复用率,从而提高系统的并发处理能力。常见的连接池有 C3P0、Druid 等。2)使用批量插入批量插入可以减少每次插入的开销,提高插入效率。可以通过 JDBC 的 addBatch() 和 executeBatch() 方法实现批量插入。3)使用事务事务可以保证多个操作的原子性,避免数据不一致的情况。可以通过 JDBC 的 setAutoCommit(false) 和 commit() 方法实现事务。4)使用分库分表。

2023-06-09 17:53:23 1245

原创 Flink代码消费Kafka到Kafka/hdfs保证端到端一致性

这样可以将 Kafka 数据写入到 HDFS 中,并且开启 Flink 的 Checkpointing 机制,以保证数据的一致性。这样可以保证在进行 Checkpoint 时,所有的 Sink 操作都会被执行一次,从而保证数据的一致性。

2023-05-22 14:44:49 404 2

原创 HDFS元数据实现原理及fsimage在数据治理中的应用

1)目前集群总文件数量 2.6亿,平均文件大小不到 30M,如何快速定位出小文件较多目录进行处理?目前集群总存储量 6.3PB,日增 100TB2)如何快速定位哪些目录每天增长过快?3)如何定位出几个月未使用过的冷数据?然后对数据进行冷热分离4)主备两个 NameNode 的作用分别是?其高可用是怎么做的?

2023-05-09 15:38:41 199

原创 Kafka 生产者

1)分区的原因方便在集群中扩展,每个 Partition 可以通过调整以适应它所在的机器,而一个 topic又可以有多个 Partition 组成,因此整个集群就可以适应任意大小的数据了;可以提高并发,因为可以以 Partition 为单位读写了。2)分区的原则我们需要将 producer 发送的数据封装成一个 ProducerRecord 对象。(1)指明 partition 的情况下,直接将指明的值直接作为 partiton 值;

2023-05-08 18:43:44 90

原创 kafka基础

Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于 大数据实时处理领域。传统消息队列的应用场景使用消息队列的好处:1)解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)可恢复性 系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。

2023-05-06 16:23:51 110 1

原创 Flink-cep基础

• 复杂事件处理(Complex Event Processing,CEP)• Flink CEP是在 Flink 中实现的复杂事件处理(CEP)库• CEP 允许在无休止的事件流中检测事件模式,让我们有机会掌握数据中重要的部分• 一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据 — 满足规则的复杂事件• 目标:从有序的简单事件流中发现一些高阶特征• 输入:一个或多个由简单事件构成的事件流• 处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件。

2023-03-21 14:34:26 150

转载 Mysql的主从复制

为什么需要主从复制?1、在业务复杂的系统中,有这么一个情景,有一句sql语句需要锁表,导致暂时不能使用读的服务,那么就很影响运行中的业务,使用主从复制,让主库负责写,从库负责读,这样,即使主库出现了锁表的情景,通过读从库也可以保证业务的正常运作。2、做数据的热备3、架构的扩展。业务量越来越大,I/O访问频率过高,单机无法满足,此时做多库的存储,降低磁盘I/O访问的频率,提高单个机器的I/O性能。1、什么是mysql的主从复制?MySQL 主从复制是指数据可以从一个MySQL数据库服务器主

2022-03-28 16:13:38 567 1

转载 Hive计算引擎Tez简介和使用

Hive计算引擎Tez简介和使用一、前言Hive默认计算引擎时MR,为了提高计算速度,我们可以改为Tez引擎。至于为什么提高了计算速度,可以参考下图:用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS。Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。二、安装包准备1)下载tez的依赖包:http://tez.apache.org2)拷贝

2022-03-28 10:54:54 3541

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除