kudu
_东极
少年锦时
展开
-
KUDU(五)kudu优化
文章目录机架感知透明分层存储管理方案索引跳跃式扫描优化资源规划机架感知Kudu可以知道每个Tablet Server处于哪个数据中心的哪个机架上,副本的负载均衡策略就可以考虑更全面,避免一个tablet的多个副本负载在同一机架,防止机架故障时tablet不可用。上图中,L0-L2是三个机架,TS0 -TS5是5台Tablet Server,有两张表:A表(副本因子=3),包含A0-A3四个tabletsB表(副本因子=5),包含B0-B2三个tablets如果Kudu配置了机架感知,它就会发现原创 2020-10-20 23:51:22 · 2294 阅读 · 0 评论 -
KUDU(三)kudu的模式设计
文章目录基于HTAP方式列设计Decimal类型列编码列压缩主键设计分区设计基于HTAP方式kudu是基于hbase-hdfs之间,满足高并发的随机读写,兼顾大规模分析处理,具有OLTP以及OLAP特征,因此是典型的HTAP(在线事务处理/在线分析处理混合模式)早期由于将OLTP以及OLAP拆分,事务性应用和分析型应用分开,但是分析型应用无法获取最新数据,OLTP横向扩展性不足,维护一套系统复杂度很高2.Lambda架构Lambda架构将工作负载分为实时层和批处理层,我们是用实施层检索和分析原创 2020-10-13 23:42:18 · 1382 阅读 · 0 评论 -
KUDU(三)kudu数据读写,更新流程
文章目录写读更新写当CLient请求写数据时,先根据主键从Master获取要访问的目标Tablets,然后依次到对应的Tablet获取数据因为kudu表存在主键约束,所以需要进行主键是否已经存在的判断,这里涉及到之前说的索引结构对读写的优化,一个Tablet中存在多个RowSets,为了提升性能,尽可能减少扫描RowSets数量,首先,我们先通过每个 RowSet 中记录的主键的(最大最小)范围,过滤掉一批不存在目标主键的RowSets,然后在根据RowSet中的布隆过滤器,过滤掉确定不存在目标主键原创 2020-10-12 23:24:51 · 1612 阅读 · 0 评论 -
KUDU(二)kudu架构设计
文章目录架构设计原理table与schemaKudu存储模型RowSet组成:tablet发现过程架构设计kudu是典型的主从架构,主Master:管理集群,管理元数据从:table server 负责最终数据存储对外提供数据读写能力,里面存储的是一个个tabletmaster:特殊的CataLog Table ,只有一个tablet,且在内存中有完整的缓存,缓存catalog table数据主要是为了提高性能,因为客户端需要通过它定位数据位置1.master不需要较大存储,不需要很好的硬件2.原创 2020-10-12 22:51:10 · 794 阅读 · 2 评论 -
OLTP与OLAP区别
文章目录OLTPOLAPOLTP联机事务处理面向业务开发人员规范化为单条记录的查询做优化行式存储OLAP联机分析处理面向分析师非规范化存在星型/雪花模型为大规模分析查询做优化列式存储(上层对接报表/AI模型分析)OLAP与OLTP与关系型数据库(RDBMS)无直接联系对于分析查询,一般只需要用到少量的列,在列式存储中,只需要读取所需的数据列即可。 例如,如果您需要100列中的5列,则I / O减少20倍。按列分开存储,按数据包读取时因此更易于压缩。 列中的数据具有相同特原创 2020-10-08 23:10:33 · 388 阅读 · 0 评论 -
KUDU(一)kudu概述
文章目录概述使用场景对比其他存储概述Kudu是一个分布式列式存储引擎/系统,由Cloudera开源后捐献给Apache基金会很快成为顶级项目。用于对大规模数据快速读写的同时进行快速分析官网https://kudu.apache.org/Kudu运行在一般的商用硬件上,支持水平扩展和高可用,集HDFS的顺序读和HBase的随机读于一身,同时具备高性能的随机写,以及很强大的可用性(单行事务,一致性协议),支持与Impala/spark计算引擎。数据形态存储场景局限性静态数原创 2020-10-08 23:02:33 · 6239 阅读 · 0 评论