大数据面试圣经
文章平均质量分 93
博主原创系列文章,非授权请勿转载!
月亮给我抄代码
大数据的坑,让我来踩吧!
展开
-
Hadoop、HDFS 相关面试题
Hadoop 是一个开源的分布式存储和计算框架,最初由 Apache 软件基金会开发。它允许大规模数据处理和存储,具有高度可靠性和可扩展性。分布式文件系统HDFS—— 用于数据存储计算框架YARN—— 用于资源管理和作业调度HDFS 是 Hadoop 生态系统的核心组件之一,用于存储大规模数据,并提供高容错性和高吞吐量的分布式文件系统。HDFS 优点高吞吐量: HDFS 针对大文件进行了优化,能够提供较高的数据读写吞吐量。原创 2024-04-02 19:41:19 · 1123 阅读 · 0 评论 -
Hive 相关面试题
在物理层面上,分桶其实就是根据规则,创建文件的过程,而分区则是创建文件夹的过程。删除表时,内部表会把元数据及真实数据删除,而外部表不删除真实数据。同样也是对 key 进行分区,但它只能用在窗口函数中,结合。对数据进行全局排序,只有一个 reduce 工作。在数据进入 reduce 前完成排序,一般和。操作进行分桶,最后根据指定字段对每个桶进行排序。的数据由 HDFS 存储,路径可以自己指定。只能进行升序排列,不能指定排序规则。的数据由 Hive 管理,且存储在。对 key 进行分区,结合。原创 2022-11-02 16:38:26 · 1175 阅读 · 0 评论 -
HBase 相关面试题
小合并指的是将多个 HFile 合并成一个较大的 HFile,这个过程是由 HBase 自动触发的,当 HRegion 中的一个或多个 Store 的 HFile 数量达到一定的阈值时,HBase 就会触发小合并过程。最后,确实,如果 RowKey 太长,也会影响 HFile 的存储,因为 HFile 是以块的方式进行存储的,而每个块的大小是固定的。数据模型:HBase 是基于列族的 NoSQL 数据库,采用了一种稀疏矩阵的数据模型,可以处理半结构化和非结构化数据,适合存储大量的、快速变化的数据。原创 2023-02-27 19:22:10 · 1188 阅读 · 1 评论 -
ClickHouse 相关面试题
ClickHouse是一款用于大数据分析的 OLAP 列式存储数据库管理系统,最初由Yandex公司开发,后来成为了一个开源项目,可以在 GitHub 上进行访问和使用。ClickHouse特点如下:高性能分布式架构支持 SQL 查询语言,减少开发人员学习成本。支持多种数据类型,拥有灵活的数据模型。支持多种数据压缩算法。开源和免费。总之,ClickHouse 是一款高性能、分布式、灵活和开源的列式存储数据库,特别适用于大数据分析、数据仓库和时序数据处理等场景。原创 2023-02-27 19:22:55 · 3861 阅读 · 0 评论