自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 大数据高级阶段面试题(实时2)

会话窗口是根据数据的活动间隔动态定义的窗口,当数据流中出现一段时间内没有数据到达的间隔时,会话窗口结束,会话窗口需要制定两个参数,会话超时时间和间隔时间,当某个数据到达时,会话窗口会检查该数据与前一个数据的时间间隔,如果超过了会话超时时间,则结束前一个会话窗口并开始一个新的会话窗口。Flink支持多种状态后端,包括内存,文件系统和分布式存储系统,状态后端负责将数据保存到相应的存储系统中,RocksDB是Flink默认的状态后端,它提供了高性能的本地存储,并能有有效地处理大规模的状态数据。

2024-05-06 15:52:16 442 1

原创 大数据高级阶段面试题(实时)

当数据流中一段时间内没有数据到达时,会话窗口结束,会话窗口需要制定两个参数,会话超时时间和间隔时间,当某个数据到达时,会话窗口会检查该数据与前一个数据的时间间隔,如果超过了会话超时时间,则结束前一个会话窗口并开始一个新的会话窗口。消费者在消费完一批数据之后,调用commitAsync方法异步提交偏移量,异步提交不会阻塞消费者的处理线程,从而提高吞吐量,但是异步提交可能会导致消息的重复处理或者是丢失,需要消费者设置适当的异常处理和重试机制。

2024-05-06 15:51:06 697

原创 Redis的持久化机制

Redis的RDB和AOF机制很像我们之前学过的HDFS中的两个机制,一个就是Edits(日志),还有一个就是FSimage(快照),Edits的优点就是存储数据是完整数据,缺点就是我们的日志文件随着我们使用和操作越来越多,日志文件会越来越多,所以当我们在恢复数据的时候,花费的时间比较久,FSimage只会存储最后一次的数据,优点就是恢复数据快,其中AOF类似于Edits,RDB类似于FSimage。这种方式的好处就是会立马执行,中断其他的,缺点就是会阻塞其他文件。将内存中的数据用命令重写一遍,减少日志。

2024-03-06 14:06:47 462 1

原创 Presto入门概念基础

1.虽然能够处理PB几倍的海量数据分析,但不代表Presto能把PB级别的数据都放在内存中计算,而是根据场景,如count,avg等聚合运算,是边读数据变计算,在清除内存,在读数据在计算,这种消耗的内存并不高,但是连表查询可能就产生大量的临时数据,因此速度会变慢,反而Hive会更适合。2.使用列式存储,Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC式存储,相对于Parquet,Presto对ORC的支持更好。1.子查询,只选择需要的字段。

2024-01-11 21:04:31 396

原创 ER建模和维度建模

包含表示维度信息列的表,被称为维度表,这些列被称为。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间。例如,在查询请求中,获取某类目的商品、正常状态的商品等,是通过约束商品类目属性和商品状态属性来实现的;代理键是一种虚拟的、无关信息的主键,但由于其固定的格式,代理键很容易添加和。站是否可以查看到此商品,是重要的查询约束的条件,但是无法直接获取,需要进行加工,加工逻辑是:商品状态为。:代理键是一个人工创建的主键,它不反映现实世界中的任何实体属性,而是在数据建模过程中添加的特殊属。

2023-11-28 16:57:00 1255

原创 大数据中级阶段数仓和数据建模知识点

尤其是大数据时代的到来,数据的多样化,巨量,更需要有 效的有针对性的数据建模方法。通过数据建模的方法,可以更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点,一般 我们会从以下面四点考虑: 性能:能够快速查询所需的数据,减少数据 I/O 的吞吐。业务系统中的数据形式多种多样,可能是 Oracle、MySQL、SQL Server 等关系数据库里的结构化数据,可能是文本、CSV 等平面文件或 Word、Excel 文档中的数据,还可能是 HTML、XML 等自描 述的半结构化数据。

2023-11-25 14:19:23 648 1

原创 zookeeper中主机互相免密的过程

两台主机之间如何实现免密过程呢?

2023-11-20 14:25:09 265 1

原创 Spark优化

8.调整资源分配:通过调整Executor的数量,内存等资源的分配,以及优化Driver端和Executor端的线程池,队列等配置,提高资源利用率和性能。2.数据倾斜:通过统计数据倾斜的情况,并采取针对性的处理策略,例如:添加随机前缀,Hash重分区,避免某个节点负载过重。3.Shuffle优化:通过使用Map端聚合,自定义分区,数据调整等方法,减少Shuffle阶段的数据传输量和开销。4.内存管理:通过控制内存使用量,调整内存分配策略等方法,提高内存利用率和减少GC开销,从而提高性能。

2023-11-18 17:54:26 216 1

原创 大数据Spark中重要知识点掌握(2)

RDD:分布式数据集DataFrame:一个不可变的分布式数据集,是一种数据结构,为数据提供了Schema视图,可以把他当做是数据库的一张表,底层是RDDDataSet:DataSet是DataFrame的扩展,具有RDD的有点以及SparkSql优化执行引擎的优点:将RDD持久化到内存中,后续可以直接访问内存中的RDD,避免了重复计算:将RDD持久化到内存或者磁盘中,持久化方式可以通过参数指定:将RDD持久化到外部存储系统中,这样即使Spark集群发生故障,也可以从外部存储系统中恢复RDD。

2023-11-15 22:37:35 233 2

原创 大数据Spark中重要知识点掌握(1)

6.资源满足之后,SparkContext开始解析Application代码,创建RDD,构建DAG有向无环图,并提交给Stage调度器分解成Stage(当遇到行动算子的时候,会催生JOB,一个JOB里会有一个或者多个Stage),然后交给Task调度器,Task调度器负责将Task分配到相应的Worker,最终由Executor执行。Sample:采集,从大量数据中获取少量数据,获取数据的方式可以根据某种策略,得到的数据用于分析,企图使用少量的数据结果代替全局。

2023-11-10 21:19:27 236 1

原创 Scala中模式匹配重要知识点掌握

Scala的模式匹配还可以用来匹配数组,列表,元组,集,映射等,match中不支持直接匹配级,可以通过转为数组或列表的方式进行匹配。除了匹配数据之外,match还可以进行类型匹配,如果我们要根据不同的数据类型来执行不同的逻辑,也可以使用match表达式来实现。case 样例类型1(属性1, 属性2, 属性n) => 表达式1。case 样例类型2(属性1, 属性2, 属性n) => 表达式2。case 样例类型n(属性1, 属性2, 属性n) => 表达式n。case 变量名n:类型n => 表达式n。

2023-11-06 14:58:41 217

原创 大数据至简原则

1.方法和函数不建议写return关键字,Scala会使用函数体的最后一行代码作为返回值2.方法的返回值类型如果能够推断出来,那么可以省略,如果有return则不能省略返回值类型,必须指定3.因为函数是对象,所以函数有类型,但函数类型可以省略,Scala编译器 可以自动推断类型4.如果方法明确声明了返回值为Unit,那么即使方法中有return关键字也不起作用5.如果方法的返回值类型为Unit,可以省略等号和Unit6.如果函数的参数类型能够推断出来,那么可以省略7.如果方法体和函数体只有一行代码,可以省略

2023-11-03 11:45:35 182

原创 视图和物化视图

是一种实际存储数据的表,它是基于一个或多个表的查询结果以某种特定方式创建的,与视图不同的是,物化视图存储查询结果,而不是每次查询时动态生成.具体来说,当创建物化视图时,数据库会执行查询操作,并将查询结果存储在一张表总.在之后的查询中,数据库可以直接使用物化视图中的数据,而不需要再次执行查询操作,从而提高查询的性能.总的来说,视图和物化视图的区别在于视图是一张虚拟表,不实际存储数据,物化视图是一种实际存储数据的表.视图适合处理动态数据集,物化视图适合处理静态数据集,他们根据具体场景需要选择使用.

2023-11-01 20:38:41 732 1

原创 Hbase的读写流程

2.Client 访问 hbase:meta 所在的 HRegionServer,获取 hbase:meta 记录的元数据后先加载到内存中,然后再从内存中查询出 RowKey 所在 的 HRegion (HRegion 所在的 HRegionServer);5.RegionScanner构建storeScanner(Hregion中有多少个Store就需要构建多少个storeScanner,store的数量取决于table的ColumnFamily的数量),用于对该列族的数据检索。

2023-10-30 20:52:34 232

原创 Hive面试问题汇总

Hive 内部表的管理既包含逻辑以及语法上的,也包含实际物理意义上的,即创建 Hive 内部表时,数据将真实存在于表所在的目录内,删除内部表时,物理数据和文件也一并删除。物化视图是一种实际存储数据的表,它是基于一个或多个表的查询结果以某种特定方式创建的,与视图不同的是,物化视图存储查询结果,而不是每次查询时动态生成。总的来说,物化视图和视图的区别在于视图是一种虚拟表,不实际存储数据,物化视图是一种实际存储数据的表。视图是一种虚拟表,它并不实际存储数据,而是基于一个或多个表的查询结果以某种特定方式创建的。

2023-10-28 20:58:31 426 1

原创 大数据Linux到Hadoopo面试常问问题汇总

它是一个免费的、开源的、企业级的发行版,具有很高的安全性和稳定性。当主的namenode因为网络波动临时宕机以后,备用节点经过选举成为主节点,这种情况下会产生脑裂的问题,如何解决脑裂问题,隔离,如何隔离,用到序列节点,序列节点内维护这一个递增的序列号,假如备用节点没有成为主前序列号为1,当备用节点成为主节点,序列号会递增为2,那么QJM,zookeeper,备用节点,datanode全部更新为2,那么主节点恢复以后他的序列号还为1,就形成了隔离。如果需要较高的压缩比,应该选择压缩比较高的算法。

2023-10-27 10:29:41 303 1

原创 Hive中分区和分桶

但是有些时候我们只是需要表中的一部分数据,所以Hive在创建表的时候就引入了Partitio(分区)概念,就是在建表的时候,将整个表存储在不同的子目录中,每一个子目录都对应一个分区,这样我们在做查询的时候就可以指定分区查询,避免了全局扫描,从而提高查询效率。分桶是将数据集分解成若干个数据文件的一种技术,分区和分桶都是对数据进行更加细腻话的管理,当单个分区的数据量过大时,分区不能更好的管理,就要采用分桶对数据进行更加细腻的管理。2.Hive的分区字段是伪字段,但是可以用来操作(可以查询,但是不存储实际的值)

2023-10-26 11:46:55 219

原创 Hive中Driver的流程和Hive的工作原理

2.通过映射关系向表中导入数据,就是把数据仓库中的数据跟这张表进行关联(Load Data):重写逻辑执行计划,优化逻辑执行计划(RBO 基于规则优化),将逻辑计划转换为物理执行计划。:在Hive中,Driver是一个关键的组件,负责协调和管理Hive查询的执行过程。4.执行查询的时候在进行解析编译优化执行,在解析阶段就会去关联元数据。:选择最佳的join策略,优化物理执行计划(CBO 基于代价优化):将抽象语法树编译成查询块,将查询块转换为逻辑查询计划。大致可以分为四步:解析->编译->优化->执行。

2023-10-25 11:43:11 392 1

原创 Yarn的工作流程

1.客户端向ResouceManager提交一个作业,ResouceManager看到有作业来了,就先给作业创建一个id,然后根据这个id创建一个临时目录,创建临时目录的作用是为了让客户端将jar包,资源信息,配置信息还有分片信息上传到这个目录里.4.ResouceManager找到NodeManager,让他创建Container,等Container创建完成之后,ApplicationMaster会将这个作业分配到Container中。①客户端每隔五秒会向ApplicationMaster询问进度。

2023-10-21 16:36:17 361 1

原创 zookeeper重点总结

当整个集群正在启动时,或者当 Leader 节点出现网络中断、崩溃等情况时,ZAB 协议就会进入恢复模式并选举产生新的 Leader,当 Leader 服务器选举出来后,并且集群中有过半的机器和该 Leader 节点完成数据同步后(同步指的是数据同步,用来保证集群中过半的机器能够和 Leader 服务器的数据状态保持一致),ZAB 协议就会退出恢复模式。这个时候,在 Leader 节点正常工作时,启动一台新的服务器加入到集群,那这个服务器会直接进入数据恢复模式,和 Leader节点进行数据同步。

2023-10-20 22:26:26 172

原创 Zookeeper和Znode的特点

这里就要用到序列节点,序列节点内维护了一个单调递增的序列号,假如备用节点在没有成为主之前他的序列号为1,当他成为主之后序列号户单挑递增1,也就是说他成为主之后他的序列号变成了2,那QJM,DataNode全部更新为2,当原来的主恢复之后,他的序列号还是为1,这就形成了隔离。造成临时宕机,备用节点经过选举之后成为主节点,这种情况下就容易产生脑裂问题。:节点在创建的时候可以设置一个单调递增的序列号,用于实现分布式队列等场景。:创建临时节点,会话结束之后临时节点会被自动删除。,维护一个小型的数据节点Znode。

2023-10-19 11:46:09 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除