大数据界一个小小的程序员-CSDN博客

原创大数据高级阶段面试题（实时2）

会话窗口是根据数据的活动间隔动态定义的窗口，当数据流中出现一段时间内没有数据到达的间隔时，会话窗口结束，会话窗口需要制定两个参数，会话超时时间和间隔时间，当某个数据到达时，会话窗口会检查该数据与前一个数据的时间间隔，如果超过了会话超时时间，则结束前一个会话窗口并开始一个新的会话窗口。Flink支持多种状态后端，包括内存，文件系统和分布式存储系统，状态后端负责将数据保存到相应的存储系统中，RocksDB是Flink默认的状态后端，它提供了高性能的本地存储，并能有有效地处理大规模的状态数据。

2024-05-06 15:52:16 442 1

原创大数据高级阶段面试题（实时）

当数据流中一段时间内没有数据到达时，会话窗口结束，会话窗口需要制定两个参数，会话超时时间和间隔时间，当某个数据到达时，会话窗口会检查该数据与前一个数据的时间间隔，如果超过了会话超时时间，则结束前一个会话窗口并开始一个新的会话窗口。消费者在消费完一批数据之后，调用commitAsync方法异步提交偏移量，异步提交不会阻塞消费者的处理线程，从而提高吞吐量，但是异步提交可能会导致消息的重复处理或者是丢失，需要消费者设置适当的异常处理和重试机制。

2024-05-06 15:51:06 697

原创 Redis的持久化机制

Redis的RDB和AOF机制很像我们之前学过的HDFS中的两个机制，一个就是Edits（日志），还有一个就是FSimage（快照），Edits的优点就是存储数据是完整数据，缺点就是我们的日志文件随着我们使用和操作越来越多，日志文件会越来越多，所以当我们在恢复数据的时候，花费的时间比较久，FSimage只会存储最后一次的数据，优点就是恢复数据快，其中AOF类似于Edits,RDB类似于FSimage。这种方式的好处就是会立马执行，中断其他的，缺点就是会阻塞其他文件。将内存中的数据用命令重写一遍，减少日志。

2024-03-06 14:06:47 462 1

原创 Presto入门概念基础

1.虽然能够处理PB几倍的海量数据分析，但不代表Presto能把PB级别的数据都放在内存中计算，而是根据场景，如count，avg等聚合运算，是边读数据变计算，在清除内存，在读数据在计算，这种消耗的内存并不高，但是连表查询可能就产生大量的临时数据，因此速度会变慢，反而Hive会更适合。2.使用列式存储，Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC式存储，相对于Parquet，Presto对ORC的支持更好。1.子查询，只选择需要的字段。

2024-01-11 21:04:31 396

原创 ER建模和维度建模

包含表示维度信息列的表，被称为维度表，这些列被称为。缓慢变化维的提出是因为在现实世界中，维度的属性并不是静态的，它会随着时间。例如，在查询请求中，获取某类目的商品、正常状态的商品等，是通过约束商品类目属性和商品状态属性来实现的；代理键是一种虚拟的、无关信息的主键，但由于其固定的格式，代理键很容易添加和。站是否可以查看到此商品，是重要的查询约束的条件，但是无法直接获取，需要进行加工，加工逻辑是：商品状态为。：代理键是一个人工创建的主键，它不反映现实世界中的任何实体属性，而是在数据建模过程中添加的特殊属。

2023-11-28 16:57:00 1255

原创大数据中级阶段数仓和数据建模知识点

尤其是大数据时代的到来，数据的多样化，巨量，更需要有效的有针对性的数据建模方法。通过数据建模的方法，可以更好的组织、存储数据，以便在性能、成本、效率和数据质量之间找到最佳平衡点，一般我们会从以下面四点考虑：性能：能够快速查询所需的数据，减少数据 I/O 的吞吐。业务系统中的数据形式多种多样，可能是 Oracle、MySQL、SQL Server 等关系数据库里的结构化数据，可能是文本、CSV 等平面文件或 Word、Excel 文档中的数据，还可能是 HTML、XML 等自描述的半结构化数据。

2023-11-25 14:19:23 648 1

原创 zookeeper中主机互相免密的过程

两台主机之间如何实现免密过程呢？

2023-11-20 14:25:09 265 1

原创 Spark优化

8.调整资源分配：通过调整Executor的数量，内存等资源的分配，以及优化Driver端和Executor端的线程池，队列等配置，提高资源利用率和性能。2.数据倾斜：通过统计数据倾斜的情况，并采取针对性的处理策略，例如：添加随机前缀，Hash重分区，避免某个节点负载过重。3.Shuffle优化：通过使用Map端聚合，自定义分区，数据调整等方法，减少Shuffle阶段的数据传输量和开销。4.内存管理：通过控制内存使用量，调整内存分配策略等方法，提高内存利用率和减少GC开销，从而提高性能。

2023-11-18 17:54:26 216 1

原创大数据Spark中重要知识点掌握（2）

RDD：分布式数据集DataFrame：一个不可变的分布式数据集，是一种数据结构，为数据提供了Schema视图，可以把他当做是数据库的一张表，底层是RDDDataSet：DataSet是DataFrame的扩展，具有RDD的有点以及SparkSql优化执行引擎的优点：将RDD持久化到内存中，后续可以直接访问内存中的RDD，避免了重复计算：将RDD持久化到内存或者磁盘中，持久化方式可以通过参数指定：将RDD持久化到外部存储系统中，这样即使Spark集群发生故障，也可以从外部存储系统中恢复RDD。

2023-11-15 22:37:35 233 2

原创大数据Spark中重要知识点掌握（1）

6.资源满足之后，SparkContext开始解析Application代码，创建RDD，构建DAG有向无环图，并提交给Stage调度器分解成Stage（当遇到行动算子的时候，会催生JOB，一个JOB里会有一个或者多个Stage），然后交给Task调度器，Task调度器负责将Task分配到相应的Worker，最终由Executor执行。Sample：采集，从大量数据中获取少量数据，获取数据的方式可以根据某种策略，得到的数据用于分析，企图使用少量的数据结果代替全局。

2023-11-10 21:19:27 236 1

原创 Scala中模式匹配重要知识点掌握

Scala的模式匹配还可以用来匹配数组,列表,元组,集,映射等,match中不支持直接匹配级,可以通过转为数组或列表的方式进行匹配。除了匹配数据之外,match还可以进行类型匹配,如果我们要根据不同的数据类型来执行不同的逻辑,也可以使用match表达式来实现。case 样例类型1(属性1, 属性2, 属性n) => 表达式1。case 样例类型2(属性1, 属性2, 属性n) => 表达式2。case 样例类型n(属性1, 属性2, 属性n) => 表达式n。case 变量名n:类型n => 表达式n。

2023-11-06 14:58:41 217

原创大数据至简原则

1.方法和函数不建议写return关键字,Scala会使用函数体的最后一行代码作为返回值2.方法的返回值类型如果能够推断出来,那么可以省略,如果有return则不能省略返回值类型,必须指定3.因为函数是对象,所以函数有类型,但函数类型可以省略,Scala编译器可以自动推断类型4.如果方法明确声明了返回值为Unit,那么即使方法中有return关键字也不起作用5.如果方法的返回值类型为Unit,可以省略等号和Unit6.如果函数的参数类型能够推断出来,那么可以省略7.如果方法体和函数体只有一行代码,可以省略

2023-11-03 11:45:35 182

原创视图和物化视图

是一种实际存储数据的表,它是基于一个或多个表的查询结果以某种特定方式创建的,与视图不同的是,物化视图存储查询结果,而不是每次查询时动态生成.具体来说,当创建物化视图时,数据库会执行查询操作,并将查询结果存储在一张表总.在之后的查询中,数据库可以直接使用物化视图中的数据,而不需要再次执行查询操作,从而提高查询的性能.总的来说,视图和物化视图的区别在于视图是一张虚拟表,不实际存储数据,物化视图是一种实际存储数据的表.视图适合处理动态数据集,物化视图适合处理静态数据集,他们根据具体场景需要选择使用.

2023-11-01 20:38:41 732 1

原创 Hbase的读写流程

2.Client 访问 hbase:meta 所在的 HRegionServer，获取 hbase:meta 记录的元数据后先加载到内存中，然后再从内存中查询出 RowKey 所在的 HRegion （HRegion 所在的 HRegionServer）；5.RegionScanner构建storeScanner（Hregion中有多少个Store就需要构建多少个storeScanner，store的数量取决于table的ColumnFamily的数量），用于对该列族的数据检索。

2023-10-30 20:52:34 232

原创 Hive面试问题汇总

Hive 内部表的管理既包含逻辑以及语法上的，也包含实际物理意义上的，即创建 Hive 内部表时，数据将真实存在于表所在的目录内，删除内部表时，物理数据和文件也一并删除。物化视图是一种实际存储数据的表，它是基于一个或多个表的查询结果以某种特定方式创建的，与视图不同的是，物化视图存储查询结果，而不是每次查询时动态生成。总的来说，物化视图和视图的区别在于视图是一种虚拟表，不实际存储数据，物化视图是一种实际存储数据的表。视图是一种虚拟表，它并不实际存储数据，而是基于一个或多个表的查询结果以某种特定方式创建的。

2023-10-28 20:58:31 426 1

原创大数据Linux到Hadoopo面试常问问题汇总

它是一个免费的、开源的、企业级的发行版，具有很高的安全性和稳定性。当主的namenode因为网络波动临时宕机以后，备用节点经过选举成为主节点，这种情况下会产生脑裂的问题，如何解决脑裂问题，隔离，如何隔离，用到序列节点，序列节点内维护这一个递增的序列号，假如备用节点没有成为主前序列号为1，当备用节点成为主节点，序列号会递增为2，那么QJM,zookeeper,备用节点，datanode全部更新为2，那么主节点恢复以后他的序列号还为1，就形成了隔离。如果需要较高的压缩比，应该选择压缩比较高的算法。

2023-10-27 10:29:41 303 1

原创 Hive中分区和分桶

但是有些时候我们只是需要表中的一部分数据，所以Hive在创建表的时候就引入了Partitio（分区）概念，就是在建表的时候，将整个表存储在不同的子目录中，每一个子目录都对应一个分区，这样我们在做查询的时候就可以指定分区查询，避免了全局扫描，从而提高查询效率。分桶是将数据集分解成若干个数据文件的一种技术，分区和分桶都是对数据进行更加细腻话的管理，当单个分区的数据量过大时，分区不能更好的管理，就要采用分桶对数据进行更加细腻的管理。2.Hive的分区字段是伪字段，但是可以用来操作（可以查询，但是不存储实际的值）

2023-10-26 11:46:55 219

原创 Hive中Driver的流程和Hive的工作原理

2.通过映射关系向表中导入数据，就是把数据仓库中的数据跟这张表进行关联（Load Data）：重写逻辑执行计划，优化逻辑执行计划（RBO 基于规则优化），将逻辑计划转换为物理执行计划。：在Hive中，Driver是一个关键的组件，负责协调和管理Hive查询的执行过程。4.执行查询的时候在进行解析编译优化执行，在解析阶段就会去关联元数据。：选择最佳的join策略，优化物理执行计划（CBO 基于代价优化）：将抽象语法树编译成查询块，将查询块转换为逻辑查询计划。大致可以分为四步：解析->编译->优化->执行。

2023-10-25 11:43:11 392 1

原创 Yarn的工作流程

1.客户端向ResouceManager提交一个作业，ResouceManager看到有作业来了，就先给作业创建一个id，然后根据这个id创建一个临时目录，创建临时目录的作用是为了让客户端将jar包，资源信息，配置信息还有分片信息上传到这个目录里.4.ResouceManager找到NodeManager，让他创建Container，等Container创建完成之后，ApplicationMaster会将这个作业分配到Container中。①客户端每隔五秒会向ApplicationMaster询问进度。

2023-10-21 16:36:17 361 1

原创 zookeeper重点总结

当整个集群正在启动时，或者当 Leader 节点出现网络中断、崩溃等情况时，ZAB 协议就会进入恢复模式并选举产生新的 Leader，当 Leader 服务器选举出来后，并且集群中有过半的机器和该 Leader 节点完成数据同步后（同步指的是数据同步，用来保证集群中过半的机器能够和 Leader 服务器的数据状态保持一致），ZAB 协议就会退出恢复模式。这个时候，在 Leader 节点正常工作时，启动一台新的服务器加入到集群，那这个服务器会直接进入数据恢复模式，和 Leader节点进行数据同步。

2023-10-20 22:26:26 172

原创 Zookeeper和Znode的特点

这里就要用到序列节点，序列节点内维护了一个单调递增的序列号，假如备用节点在没有成为主之前他的序列号为1，当他成为主之后序列号户单挑递增1，也就是说他成为主之后他的序列号变成了2，那QJM,DataNode全部更新为2，当原来的主恢复之后，他的序列号还是为1，这就形成了隔离。造成临时宕机，备用节点经过选举之后成为主节点，这种情况下就容易产生脑裂问题。：节点在创建的时候可以设置一个单调递增的序列号，用于实现分布式队列等场景。：创建临时节点，会话结束之后临时节点会被自动删除。，维护一个小型的数据节点Znode。

2023-10-19 11:46:09 164

weixin_57211246的博客