Doris【基础篇】

一、简介

Doris(原百度Palo)是一款基于大规模并行处理技术的分布式SQL数据库。基于MPP的交互式SQL数据库,可以用于OLAP。MPP是将任务并行的分散到多个服务器和节点上,在每个节点上结算完后,将各个部分的结果汇总在一起得到最终的结果。

1.1Doris的定位

  • MPP架构的关系型分析数据库;
  • PB级别大数据集,秒级/毫秒级响应查询;
  • 主要用于多维分析和报表查询;

1.2 产品

产品定位

  1.  性能卓越:TPC-H/TPC-DS性能领先,性价比高,高并发查询,100台集群可达10W QPS,流式导入单点50MB/s,小批量导入毫秒延迟

  2. 简单易用:高度兼容Mysql协议;支持在线表结构变更、高度集中,不依赖于外部存储系统,通过了权威第三方产品能力测评验证;

  3. 扩展性强:架构优雅,单集群可水平扩展200台以上

  4. 高可用性:多副本,元数据高可用

1.3 Doris的整体架构

Doris主要整合了Google Mesa(数据模型)、Apache Impala(MPP Query Engine)和ORCFile(存储格式,编码和压缩)的技术。

  • Mesa可以满足我们许多存储需求,但是Mesa本身不提供SQL查询引擎
  • Impala是一个非常好的MPP SQL查询引擎,但是缺少完美的分布式存储引擎
  • 自研列式存储:存储层对存储数据的管理通过stotage_root_path路径进行配置,路径可以是多个。存储目录下一层按照分桶进行组织,分桶目录存放具体的tablet。

Doris的架构只设FE(Frontend)、BE(Backend)两种角色、两个进程,不依赖于外部组件,方便部署和运营。

  • 数据存储:FE存储、维护集群的元数据;BE存储物理数据;
  • 查询处理:FE节点接收、解析查询请求,规划查询计划,调度查询计划,返回查询结果;BE节点依据FE生成物理计划,分布式执行查询。 

 Doris的数据分布

1.4 Doris技术特点

  1. 数据可靠性:

    1. 元数据使用Memory+CheckPoint+Journal,使用BTBJE协议实现高可用和高可靠性

    2. Doris内部自行管理数据的多副本和自动修复。保证数据的高可用、高可靠。再服务器宕机的情况下,服务依然可用,数据也不会丢失。

  2. 容易运营:

    1. 没有外部依赖:Doris部署无外部依赖,只需要部署BE和FE即可搭建起一个集群;支持Online Schema Change;支持在线更改表模式(加减列,创建rollUp),不会影响当前服务,不会堵塞读、写操作;执行是异步的

    2. 数据同步操作和异步操作:

      1. 同步:是所有的操作都完成,才返回给用户结果;即写完数据库之后,再响应用户,用户体验不好;

      2. 异步:不用等所有的操作做完,就响应用户请求;即先响应用户请求,然后再慢慢的写数据库,用户体验好。缓存机制(也就是消息队列),就是异步操作的一个典型应用。

      3. 副本自动均衡

      4. 内置监控

  3. MySql兼容:兼容Mysql的网络协议;兼容Mysql的语法

  4. 支持MPP:即支持Massively Parallel Processing,大规模并行处理,即海量数据并发查询。 

    SELECT k1,SUM(v1) FROM A,B WHERE A.k2=B.k2 GROUP BY k1 ORDER BY SUM(v1)
    

    该语句包含了合并、聚合计算、排序等多种操作;在执行计划的时候,MPP将其拆解成多份,分布到每台机器上执行,最后再将结果汇总。假设有10台机器,在大数据量下,这种查询执行方式可以使得查询性能达到10倍的提升。

  5. 列式存储引擎: 
    1. 列式存储在数据写入和修改上具有优势
    2. 列式存储在数据读取和解析、分析数据上具有优势
  6. 支持向量化查询引擎:Doris查询引擎是向量化的查询引擎,所有的内存结构能够按照列式布局,能够达到大幅度减少虚函数的调用、提升Cache命中率,高效利用SIMD指令的效果。在宽表聚合场景下新跟那个是非向量化引擎的5-10倍。
  7. 动态调整执行计划:Doris采用了Adaptive Query Execution技术,可以根据Runtime Statistics来动态调整执行计划,比如通过Runtime Filter技术能够在运行时生成Filter推到Probe侧,并且能够将Filter自动穿透到Probe侧最底层的Scan节点,从而大幅度减少Probe的数据量,加速Join性能。Doris的Runtime Filter支持in/Min/Max/Bloom Filter。
  8. 采用CBO和RBO查询优化器 :查询优化器主要解决的是多个连接操作的复杂查询优化,负责生成、制定SQL的执行计划,目前主要有2中查询优化器:基于规则的优化器(RBO)与基于代价的优化器(CBO),下面大约解释一下RBO与CBO优化器的原理:
    1. RBO:Rule-Based-Optimization。即基于规则的优化器,该优化器按照硬编码在数据库中的一系列规则来决定SQL的执行计划,只要求我们按照这套规则来写SQL语句,无论表中的数据分布和数据量如何都不会影响这套规则下的执行计划。
    2. CBO:Cost-Based-Optimization。即基于代价优化器,该优化器通过根据优化规则对关系表达式进行转换,按照表、索引、列等信息生成多个执行计划,然后CBO会通过根据统计信息(Statistics)和代价模型(Cost Model)计算各种可能”执行计划“的”代价”,即COST,从中选用Cost最低的执行方案。主要包括:SQL执行路径的IO、网络开销、CPU使用情况等。

二、Doris的数据模型

2.1 aggregate聚合模型 

Aggregate模型可以通过预聚合,极大的降低聚合查询时所需要扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*)查询很不友好。同时因为固定了value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。

维度列key:没设置aggregationtype

指标列value:设置了aggregationtype

当我们导入数据的时候,对于key列相同的行会聚合成一行,而value列会按照设置的aggregationtype进行聚合。aggregationtype目前的四种聚合方式:

  1. Sum:求和,多列的value值进行累加;
  2. Max:保留最大值
  3. Min:保留最小值
  4. Replace:替代,下一批数据中的value会替代之前导入过的行中的value。在同一批次中的数据,对于replace这种聚合方式,替换顺序不做保证。

优点:我们会按照维度列区聚合数据,如果维度列数据相同我们会把这些数据合并(compaction)起来。也就是相当于在数据库里面存储的其实是一个合并之后的结果,这个结果对于统计分析来说是很有效果的。因为广告报表只关心这种统计之后的数据,现在我们把大量的数据聚合,比如一天的数据可能有一千条,我们聚合成一条,相当于整个IO节省了一千倍,效果非常明显。

缺点:有些业务场景分析的时候,是需要明细数据的,它不太关心统计的结果,而是更关心流程分析,更关心的是我要拿着历史的全量数据跟现在的数据做对比。

2.2 unique key模型

我们提供一个唯一Key模型,在整个历史数据导入的时候,我们保证key的唯一,不聚合。

Unique Key的模型主要面向留存分析或者订单分析的场景,他们需要一个Unique Key的约束去保证整个数据不丢不重。

Uniq模型针对需要唯一主键约束的场景,可以保证主键唯一性约束。但是无法利用RollUp等预聚合带来的查询优势(因为本质是replace,没有sum这种聚合方式,rollup只是用来调准列顺序命中前缀索引)

2.3 duplicate key模型

数据完全按照导入文件中的数据进行存储,不会有任何聚合。即使两行数据完全相同,也会保留。而在建表语句中制定的Duplicate key,只是用来指明底层数据按照那些列进行排序。

        数据可能重复,对于有些日志分析它不太在意数据多几条或者少几条,可能只关心排序,这个时候可能重复key的模型会更加有效果。这种数据模型适用于既没有聚合需求,有没有主键唯一性约束的原始数据的存储。 

Duplicate模型适用任意维度的ad-hoc查询。虽然同样无法利用预聚合的特性,但是不受聚合模型的约束,可以发挥列存模型的优势(只读取相关列,而不需要读取所有key列)

  • 32
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Doris 技术文档 Doris 是一个分布式 OLAP 数据库,旨在为用户提供高效、稳定、可靠的数据存储和分析能力。本文档将介绍 Doris 的架构、数据模型、查询引擎和部署方式等方面的内容。 一、架构 Doris 的架构分为三层: 1. 存储层 存储层是 Doris 的核心组成部分,负责数据的存储和管理。Doris 采用了分布式存储技术,将数据均匀地分配到多个节点上,以实现数据的高可用性和可扩展性。Doris 的存储层支持多种存储引擎,包括 RocksDB、LMDB、Hadoop HDFS 等。 2. 计算层 计算层是 Doris 的查询引擎,负责处理用户的查询请求。Doris 的计算层采用了分布式计算技术,将查询任务分配到多个节点上并行执行,以提高查询效率和并发能力。Doris 的计算层支持多种查询引擎,包括 MPP、SQL、Flink 等。 3. 接口层 接口层是 Doris 的用户界面,负责与用户进行交互。Doris 的接口层支持多种接口协议,包括 JDBC、ODBC、RESTful API 等。 二、数据模型 Doris 的数据模型采用了类似于关系型数据库的表格模型,但具有更丰富的数据类型和数据结构。Doris 的数据模型支持多维度数据分析和聚合,具有较高的灵活性和可扩展性。 Doris 的数据模型主要包括以下几个概念: 1. 数据库 数据库Doris 中数据的最高层次,用于管理和组织数据表格。一个 Doris 实例可以管理多个数据库。 2. 表格 表格是 Doris 中存储数据的基本单位,类似于关系型数据库中的表格。每个表格由多个列组成,每列具有相应的数据类型。 3. 分区 分区是 Doris 中表格的分割单位,用于实现数据的水平切分和负载均衡。每个分区都是一个独立的存储单元,可以分配到任意节点上。 4. 副本 副本是 Doris 中实现数据高可用性的关键技术,用于保证数据的冗余备份和容错能力。每个分区都可以配置多个副本,以实现数据的容错和负载均衡。 三、查询引擎 Doris 的查询引擎支持多种查询方式,包括 SQL、MPP 和 Flink 等。 1. SQL Doris 的 SQL 查询引擎支持标准的 ANSI SQL 语法,具有较高的兼容性和易用性。用户可以使用 SQL 语言进行数据查询、过滤、聚合和排序等操作。 2. MPP Doris 的 MPP 查询引擎采用了分布式计算技术,将查询任务分配到多个节点上并行执行,以提高查询效率和并发能力。MPP 查询引擎适用于大规模数据查询和分析。 3. Flink Doris 的 Flink 查询引擎是基于 Flink 流处理框架开发的,支持实时流数据分析和处理。Flink 查询引擎适用于实时数据分析和处理场景。 四、部署方式 Doris 的部署方式主要有以下几种: 1. 单机部署 单机部署是 Doris 最简单的部署方式,适用于小规模数据存储和查询场景。用户可以在单个节点上安装 Doris 实例,并将数据存储在本地磁盘上。 2. 集群部署 集群部署是 Doris 的标准部署方式,适用于大规模数据存储和查询场景。用户可以在多个节点上安装 Doris 实例,并将数据分布式存储在多个节点上。集群部署需要注意节点的负载均衡和数据同步等问题。 3. 容器部署 容器部署是 Doris 的新兴部署方式,适用于云原生和容器化场景。用户可以将 Doris 实例打包成容器镜像,并在容器平台上进行部署和管理。 总结 本文介绍了 Doris 的架构、数据模型、查询引擎和部署方式等方面的内容,希望能够为用户提供一些参考和帮助。Doris 是一个功能强大、易用性高的分布式 OLAP 数据库,具有广泛的应用场景和市场前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据松松

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值