自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Kafka的组成

一、服务器硬件依赖部分1.kafka为分布式,需依赖多台服务器2.每台机器为一台broker3.一台broker对应多topic队列4.一topic队列可切成多partition队列5.partition包含leader和follower二、逻辑部分1.生产者:source,拉数据2.消费者:sink,消费数据3.消费者组: 多消费者组成,组内每个消费者消费不同partition分区。不同组的消费者可以消费同一个partition三、完整性部分1.容灾:以partition为单位保存副

2021-11-01 22:38:43 1936

原创 数仓建模面试部分

难点:面对1000 + 张表进行建模,将业务梳理清楚,达到快速对任何指标的统计·分清事实表、维度表1.1-1 放入接近总工程50%的时间了解需求——(产品经理-统计哪些指标),(业务人员-梳理核心业务)1-2 将业务表导入EZDML,通过id将相关联的业务连接到一起(此过程中过滤掉部分无用表)1-3 维度表:商品、用户、访客、活动事实表:详情、加购、下单、支付、物流2.ODS2-1保持数据原貌 进行原始数据备份2-2创建分区表 防止后续全表三秒?2-3采用压缩 减少磁盘空

2021-08-11 00:33:02 459

原创 关于Kylin

一、定义:Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。它能在亚秒内查询巨大的Hive表。ROLAP:Relational OLAP:基于关系型数据库 //写sql,不需要预结算MOLAP:Multidimensional OLAP : 基于多维数据集 //需要预计算OLAP Cube(立方体):MOLAP基于多维数据集,一个多维数据集称之为一个OLAP CubeOLAP Cube

2021-08-10 11:36:07 107

原创 Hive面试主题

1.hive的组成–1: metaStore(元数据):默认存在derby数据库,但多客户端进行访问时会冲突,故将数据转到Mysql中–2:客户端–3:四个器:编译器,解析器,优化器,执行器–4:默认运转引擎:MR(生产环境下mr转spark、tez)//每天跑的任务用spark,临时执行的任务走tez:适合改个参数测试临时指标–5: 数据默认存储在HDFS2.与mysql的区别除了sql、hql查询命令以外几乎都不一样hive走的数据量大,查询mysql走的数据量小,增删改查3.内部

2021-08-09 22:32:51 165

原创 Kafka面试

1、基本信息 1)组成 生产者 broker 消费者 zk 2)kafka安装多少台= 2 * (生产者峰值生产速率 * 副本 / 100) + 1 = 3台 3)压测:生产者峰值生产速率 消费者峰值消费速率 4)副本:默认1个副本 =》 生产环境2-3 个 2个居多 副本多的好处,可靠性高; 坏处,效率低 5)kafka速率 100万日活 没人每天100条日志 每天多少条日志=100万 * 100条 = 1亿条 1亿条 / (3600 * 24)=

2021-08-05 10:42:18 126

原创 Flume面试问题

一、flume的组成 1.source 1)taildir source : ·断点续传,多目录 ·apache flume 1.7 ,CDH1.6 ·自定义source实现断点续传 ·用offset落盘判定传入量,所以不会丢失数据,但会产生重复数据。 ·自身效率低,在企业中不常在source端进行对重复数据的清洗去重。 ·去重在下一级进行处理:redis,flink,group by , dwd2.channel1)file channel: 磁盘,效率低,可

2021-08-05 10:12:01 266

原创 大数据之Zookeeper面试部分

选举机制:2N + 1半数+110台服务器————3台20···········———— 5台50···········————7台100·········————11台常用命令:ls,create, delete, get

2021-08-04 21:28:19 57

原创 Hadoop面试总结

一、入门 1.Hadoop 3.X端口号: HDFS端口:9870 MR:8088 历史日志:19888 客户端访问集群端口:8020 2.配置文件: core-site.xml //核心 hdfs-site.xml //存储 mapred-site.xml //计算 yarn-site.xml //调度二、HDFS 1.运行机制:笔试题百度2.HDFS小文件的处理方法问题: 1.1个文件块占用namenode大约150K内存,128G存9亿文件块 2.进行计算时,每

2021-08-04 17:05:22 70

原创 Flink项目中的重难点(二)

在第一章中,我们采用了使用维度表写入HBase,事实表写入主流的,采用flinkCDC的方法读取mysql中配置表信息从而实现动态分流的问题。优化一:在第二章中,我们对于从HBase中读取数据可以使用旁路缓存的方法,快速的抓取数据,让整个数据的传输过程速度更快。于是新的问题出现了,在整个流式处理框架中,对外部数据源的信息抓取一直是一个性能瓶颈。//旁路缓存模式是一种非常常见的按需分配缓存的模式。任何请求优先访问缓存,缓存命中,直接获得数据返回请求。如果未命中则,查询数据库,同时把结果写入缓存以备后续请

2021-08-03 10:06:36 331

原创 Flink项目中的重难点(一)

动态分流问题需求:在数据接收层,我们是使用maxwell把通过binlog变动的数据全部写入一个kafka的topic中。而这其中存在维度表和事实表,还有同时又是维度又是事实的表。在实时计算中,我们一般把维度表写入通过主键查询的数据库中,例如mysql,redis,hbase等。一般将事实表写入流中,再经过进一步处理使其变成宽表。而又maxwell存入的全部数据,我们该如何判断全部的数据的流向呢。我们可以将数据的内容全部在一个地方集中配置,形成一种动态的配置方案。我们选择使用mysql存放这种配置表

2021-08-01 21:58:59 485

原创 数据倾斜及治理方法

常见会产生数据倾斜的框架:hadoop,hive,hbase,flink,spark,sqoop,以及各种Shuffle阶段一、对于数据倾斜的定义1.是什么:在shuffle过程中大量同一key的数据被分配至同一分区,导致其中一节点压力过大,而其他节点过于清闲的情况。2.现象:①绝大多数map Task运行快速,而个别Task,尤其多见于reduce task运行过慢。②OOM(Hadoop——container,Spark——driver)3.原理:进行Shuffle的过程中将相同的ke

2021-07-30 16:33:08 158

原创 HDFS的写数据流程

HDFS的写数据流程流程包含对象:A.客户端:包含HDFS client,DFS和FSDataOutputStream三个模块B.NameNode:存放元数据C.多个DataNode:以block为单位存放数据及其长度、校验和和时间戳等内容。发送过程(将文件从客户端发送到HDFS)://三次交互一次传1.客户端中的DFS(DistributedFileSystem):向NameNode中发送上传请求。2.NameNode:检查该文件是否已存在,父目录是否存在。NameNode判断后给予反馈

2021-03-19 18:13:47 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除