自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 一篇文章帮你回顾spark

一篇文章帮你回顾spark

2024-01-19 17:32:00 1549 1

原创 mysql索引B+树可视化演示地址

https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html

2024-06-13 11:32:33 225

原创 mysql高级刷题-01-求项目子任务分组计算

mysql刷题

2024-06-05 17:19:41 281

原创 mysql高级刷题-01-求中位数

刷题记录

2024-06-05 16:46:50 573

原创 大数据开发面试题【数仓篇】

吐血整理,各位佬爷一键三连

2024-05-27 14:37:56 688

原创 大数据开发面试题【Mysql篇】

吐血整理,还请大佬们一键三连

2024-05-27 14:29:49 989 2

原创 大数据开发面试题【ClickHouse篇】

吐血整理,还请大佬们一键三连

2024-05-27 11:45:59 973

原创 大数据开发面试题【Flink篇】

吐血整理,还请一键三连

2024-05-27 11:31:50 1125

原创 大数据开发面试题【Spark篇】

吐血整理,还请各位大佬们一键三连

2024-05-27 11:02:22 1006

原创 大数据开发面试题【Kafka篇】

吐血整理,小编亲身体验

2024-05-27 10:51:36 763

原创 大数据开发面试题【Hive篇】

吐血整理,小编亲身体验

2024-05-20 15:58:24 1415 2

原创 大数据开发面试题【Flume篇】

吐血整理,亲身体验

2024-05-20 15:56:33 373 3

原创 大数据开发面试题【Zookeeper篇】

吐血整理,小编亲身经历

2024-05-20 15:54:22 849

原创 大数据开发面试题【Yarn篇】

吐血整理,亲身经历

2024-05-20 15:41:14 478 1

原创 大数据开发面试题【MapReduce篇】

吐血整理,亲身经历

2024-05-20 15:39:49 1404 1

原创 大数据开发面试题【HDFS篇】

吐血整理,作者亲身经历面试题总结

2024-05-20 15:36:32 440 1

原创 大数据开发面试题【Hadoop篇】

吐血整理 亲身体验的面试题总结

2024-05-20 15:33:27 737 3

原创 大数据面试题—包含真实面经(压力拉满)

大数据最全面试题 吐血整理

2024-04-16 11:53:11 985

原创 ClickHouse中的rollup、cube、totals操作

一文让你搞懂clickhouse中groupby的三大特点

2024-01-31 17:55:30 569

原创 还在纠结两种数仓建模的理论模式吗?一文帮你搞懂

企业数据仓库是企业信息化工厂的枢纽,是原子数据的集成仓库,从各种操作系统集成而来,包含一个确定的的且一致的业务活动表示法,基于原子数据的性质,该仓库尽可能地包括最底层的细节数据;企业数据仓库通常存储于关系型数据库管理系统中华,并且Inmon主张使用第三范式进行数据库设计。

2024-01-29 16:06:56 387

原创 还没看懂数仓的维度建模吗?一文帮你搞定

本文涉及数据仓库的维度建模

2024-01-29 15:32:09 623

原创 Spark持久化和检查点的区别?

一问搞懂spark检查点和持久化的区别?

2024-01-26 15:08:20 438 1

原创 Spark物理执行计划生成方法

Spark具体采用3个步骤来生成物理执行计划:首先根据action()操作顺序将应用划分为作业(job),然后根据每个job的逻辑处理流程中的ShuffleDependency依赖关系,将job划分为执行阶段(stage)。最后在每个stage中,根据最后生成的RDD的分区个数生成多个计算任务(task),具体如下所述。

2024-01-26 15:05:03 652 1

原创 一篇文章帮你回顾hadoop

一篇文章帮你回顾hadoop

2024-01-19 17:42:29 366 2

原创 kafka面经

消费者组:由多个消费者组成,消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费,消费者组之间互不影响,所有的消费者者都属于某个消费者组分区:一个topic可以分布到多个服务器上,一个topic可以分为多个partition副本:一个topic的每个分区都有若干个副本、一个Leader(副本的主)和若干个Follower生产者发送原理:涉及两个线程,main和sender,在main中创建了一个双端队列(RecordAccumulator)。

2023-11-28 15:27:52 205

原创 Kafka基础

当一个消费者被关闭或者发生崩溃时候,就离开群组,原本由它读取的分区将由群组里的其他消费者来读取,这样的行为被称为再均衡,在再均衡期间,消费者无法读取消息,消费者通过向被指派为群组协调器的broker发送心跳,证明自己还活着,如果超过时间没有报告心跳信息,则被判定为死亡,就会触发再均衡。1、kafka可以保证分区消息的顺序,如果使用同一个生产者往同一个分区写入消息,而且消息B在消息A之后写入,那么kafka可以保证消息B的偏移量比消息A的偏移量大,而且消费者会先读取消息A再读取消息B。

2023-11-28 15:25:52 70

原创 Kafka分区分配

进行分区的键,如果key不为null,则会默认的分区器会对key的哈希取余,将结果传入到对应的分区中,若key为null,那么消息将会以轮询的方式发往主题内的各个可用的人分区。RangeAssignor:是按照消费者总数和分区总数继续宁整除运算得到一个跨度,然后将分区按照跨度进行平均分配,以保证分区尽可能均匀地分配给所有的消费者。分区分配是一个很重要的概念,当遇到分区分配时候,有三个重点——生产者发送消息、消费者消费消息、创建主题。注意:分区是在主题下有的,副本是对于分区而言的。

2023-11-28 15:21:02 77

原创 关于kafka报错“不能找到路由”Closing socket connection. Attempting reconnect except it is a SessionExpiredExcept

最后发现是三台机器之间的防火墙没有完全关闭,最后关闭三台机器的防火墙,最终kafka正常,zk正常。以为是kafka版本的问题,然后就各种安装各种版本的kafka,最后还是报错 —“不能找到路由”当启动kafka时候,一直报错不能找到路由,

2023-10-20 15:30:49 615 1

原创 [满满的干货]大数据生态中间件常见问题描述

2.第二个是选择把什么数据输出到硬盘上,spark会根据数据计算的血缘,来判断某一个RDD对于前置数据是宽依赖还是窄依赖,如果是宽依赖,意味着一个节点的故障,可能会导致大量的数据要进行重新计算,乃至数据网路传输的要求。1.第一个是数据存储上,数据不再是存放在硬盘上,而是可以缓存在内存中,只有当内存不足的时候,才会存储在硬盘上,同时,数据的持久化,也支持硬盘,序列化后的内存存储,以及序列化后java对象的内存存储三种形式,每一种都比另一种占用更多的内存,但计算速度更快。

2023-09-14 16:59:11 327 1

原创 大数据技术之spark算子

大数据spark核心--算子

2023-03-10 10:22:38 345

原创 大数据scala之函数至简原则(重点)

scala中及其重要的知识点,为scala函数时编程提供基础

2023-03-09 22:12:12 175

原创 大数据技术之scala经验

大数据-scala

2023-03-08 15:00:49 113

大数据开发面试题,吐血整理

包含hadoop/hive/kafka/flume/scala/spark/flink等相关大数据中间件面试,并且会不断更新,本资源提供了大数据开发领域常见的面试题和答案,旨在帮助求职者准备面试并提升在大数据开发方面的知识和技能。该文档涵盖了大数据生态系统中的核心技术、工具、理论知识以及实践应用,适用于初级、中级和高级的求职者。基础概念 大数据的定义和特点 大数据处理的基本原理 常见的数据存储格式(如CSV、JSON、Avro、Parquet) Hadoop生态系统 HDFS(Hadoop Distributed File System) HDFS的架构和工作原理 数据读写流程 NameNode和DataNode的作用 MapReduce MapReduce的基本概念和工作流程 MapReduce编程模型 Shuffle和Sort机制 YARN(Yet Another Resource Negotiator) YARN的架构和资源管理 ApplicationMaster和NodeManager的角色

2024-05-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除