景丰-CSDN博客

原创 Kafka的组成

一、服务器硬件依赖部分1.kafka为分布式，需依赖多台服务器2.每台机器为一台broker3.一台broker对应多topic队列4.一topic队列可切成多partition队列5.partition包含leader和follower二、逻辑部分1.生产者：source，拉数据2.消费者：sink，消费数据3.消费者组：多消费者组成，组内每个消费者消费不同partition分区。不同组的消费者可以消费同一个partition三、完整性部分1.容灾：以partition为单位保存副

2021-11-01 22:38:43 1936

原创数仓建模面试部分

难点：面对1000 + 张表进行建模，将业务梳理清楚，达到快速对任何指标的统计·分清事实表、维度表1.1-1 放入接近总工程50%的时间了解需求——（产品经理-统计哪些指标），（业务人员-梳理核心业务）1-2 将业务表导入EZDML，通过id将相关联的业务连接到一起（此过程中过滤掉部分无用表）1-3 维度表：商品、用户、访客、活动事实表：详情、加购、下单、支付、物流2.ODS2-1保持数据原貌进行原始数据备份2-2创建分区表防止后续全表三秒？2-3采用压缩减少磁盘空

2021-08-11 00:33:02 459

原创关于Kylin

一、定义：Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据。它能在亚秒内查询巨大的Hive表。ROLAP：Relational OLAP：基于关系型数据库 //写sql，不需要预结算MOLAP：Multidimensional OLAP : 基于多维数据集 //需要预计算OLAP Cube（立方体）：MOLAP基于多维数据集，一个多维数据集称之为一个OLAP CubeOLAP Cube

2021-08-10 11:36:07 107

原创 Hive面试主题

1.hive的组成–1： metaStore（元数据）：默认存在derby数据库，但多客户端进行访问时会冲突，故将数据转到Mysql中–2：客户端–3：四个器：编译器，解析器，优化器，执行器–4：默认运转引擎：MR（生产环境下mr转spark、tez）//每天跑的任务用spark，临时执行的任务走tez：适合改个参数测试临时指标–5: 数据默认存储在HDFS2.与mysql的区别除了sql、hql查询命令以外几乎都不一样hive走的数据量大，查询mysql走的数据量小，增删改查3.内部

2021-08-09 22:32:51 165

原创 Kafka面试

1、基本信息 1）组成生产者 broker 消费者 zk 2）kafka安装多少台= 2 * （生产者峰值生产速率 * 副本 / 100） + 1 = 3台 3）压测：生产者峰值生产速率消费者峰值消费速率 4）副本：默认1个副本 =》生产环境2-3 个 2个居多副本多的好处，可靠性高；坏处，效率低 5）kafka速率 100万日活没人每天100条日志每天多少条日志=100万 * 100条 = 1亿条 1亿条 / (3600 * 24)=

2021-08-05 10:42:18 126

原创 Flume面试问题

一、flume的组成 1.source 1)taildir source : ·断点续传，多目录 ·apache flume 1.7 ，CDH1.6 ·自定义source实现断点续传 ·用offset落盘判定传入量，所以不会丢失数据，但会产生重复数据。 ·自身效率低，在企业中不常在source端进行对重复数据的清洗去重。 ·去重在下一级进行处理：redis，flink，group by ， dwd2.channel1）file channel: 磁盘，效率低，可

2021-08-05 10:12:01 266

原创大数据之Zookeeper面试部分

选举机制：2N + 1半数+110台服务器————3台20···········———— 5台50···········————7台100·········————11台常用命令：ls，create， delete， get

2021-08-04 21:28:19 57

原创 Hadoop面试总结

一、入门 1.Hadoop 3.X端口号： HDFS端口：9870 MR：8088 历史日志：19888 客户端访问集群端口：8020 2.配置文件： core-site.xml //核心 hdfs-site.xml //存储 mapred-site.xml //计算 yarn-site.xml //调度二、HDFS 1.运行机制：笔试题百度2.HDFS小文件的处理方法问题： 1.1个文件块占用namenode大约150K内存，128G存9亿文件块 2.进行计算时，每

2021-08-04 17:05:22 70

原创 Flink项目中的重难点（二）

在第一章中，我们采用了使用维度表写入HBase，事实表写入主流的，采用flinkCDC的方法读取mysql中配置表信息从而实现动态分流的问题。优化一：在第二章中，我们对于从HBase中读取数据可以使用旁路缓存的方法，快速的抓取数据，让整个数据的传输过程速度更快。于是新的问题出现了，在整个流式处理框架中，对外部数据源的信息抓取一直是一个性能瓶颈。//旁路缓存模式是一种非常常见的按需分配缓存的模式。任何请求优先访问缓存，缓存命中，直接获得数据返回请求。如果未命中则，查询数据库，同时把结果写入缓存以备后续请

2021-08-03 10:06:36 331

原创 Flink项目中的重难点（一）

动态分流问题需求：在数据接收层，我们是使用maxwell把通过binlog变动的数据全部写入一个kafka的topic中。而这其中存在维度表和事实表，还有同时又是维度又是事实的表。在实时计算中，我们一般把维度表写入通过主键查询的数据库中，例如mysql，redis，hbase等。一般将事实表写入流中，再经过进一步处理使其变成宽表。而又maxwell存入的全部数据，我们该如何判断全部的数据的流向呢。我们可以将数据的内容全部在一个地方集中配置，形成一种动态的配置方案。我们选择使用mysql存放这种配置表

2021-08-01 21:58:59 485

原创数据倾斜及治理方法

常见会产生数据倾斜的框架：hadoop,hive,hbase,flink,spark,sqoop,以及各种Shuffle阶段一、对于数据倾斜的定义1.是什么：在shuffle过程中大量同一key的数据被分配至同一分区，导致其中一节点压力过大，而其他节点过于清闲的情况。2.现象：①绝大多数map Task运行快速，而个别Task，尤其多见于reduce task运行过慢。②OOM(Hadoop——container,Spark——driver)3.原理：进行Shuffle的过程中将相同的ke

2021-07-30 16:33:08 158

原创 HDFS的写数据流程

HDFS的写数据流程流程包含对象：A.客户端：包含HDFS client，DFS和FSDataOutputStream三个模块B.NameNode：存放元数据C.多个DataNode：以block为单位存放数据及其长度、校验和和时间戳等内容。发送过程（将文件从客户端发送到HDFS）：//三次交互一次传1.客户端中的DFS（DistributedFileSystem）：向NameNode中发送上传请求。2.NameNode：检查该文件是否已存在，父目录是否存在。NameNode判断后给予反馈

2021-03-19 18:13:47 77

weixin_48788937的博客