olap
文章平均质量分 90
新手路上的程序员
这个作者很懒,什么都没留下…
展开
-
Druid 笔记一
1Apache Druid简介及架构 1.1 Druid概述1.1.1 什么是Druid数据分析的基础架构可以分为以下几类:使用Hadoop/Spark进行分析 将Hadoop/Spark的结果导入 RDBMS 中提供数据分析 将结果保存到容量更大的 NoSQL 数据库中,解决数据分析的存储瓶颈,例如:HBase 将数据源进行流式处理,对接流式计算框架(如Storm、Spark、Flink),结果保存到 RDBMS或NoSQL中 将数据源进行流式处理,对接分析数据库,例如:Dr...原创 2021-01-24 16:40:37 · 344 阅读 · 2 评论 -
Kylin 笔记一
1Kylin概述1.1 背景、历史及特点 数据源和模型:主要支持Hive、Kafka构建引擎:早期支持MapReduce计算引擎,新版本支持Spark、Flink计算引擎。除了全量构建外,对基于时间的分区特性,支持增量构建存储引擎:构建好的Cube以Key-Value的形式存储在HBase中,通过优化Rowkey加速查询。每一种维度的排列组合计算结果被保存为一个物化视图,叫Cuboid优化算法:Cube本身就是用空间换时间,也会根据算法,剪枝优化掉一些多余的Cuboid,寻求平衡 访问接口:支持标.原创 2021-01-20 17:49:04 · 409 阅读 · 0 评论 -
Kudu 笔记一
第一部分 概述基于HDFS的存储技术,比如Parquet,具有高吞吐量连续读取数据的能力;而HBase和Cassandra等技术适用于低延迟的随机读写场景,那么有没有一种技术可以同时具备这两种优点呢? Kudu提供了一种“happy medium”的选择:数据模型KUDU 的数据模型与传统的关系型数据库类似,一个 KUDU 集群由多个表组成,每个表由多个字段组成,一个表必须指定一个由若干个(>=1)字段组成的主键,如下图: Kudu更像关系型数据库,而不是像HBas.原创 2021-01-20 09:44:52 · 214 阅读 · 0 评论