Doris 最新技术能力调研

最新推荐文章于 2024-05-16 15:36:57 发布

zxf126126

最新推荐文章于 2024-05-16 15:36:57 发布

阅读量917

点赞数

文章标签：数据库 java 大数据

本文链接：https://blog.csdn.net/zxf126126/article/details/131221803

版权

一、Doris核心技术特点：

存储模型：聚合模型，唯一Key模型，重复Key模型。通过Catalog方式接入外部数据源
丰富索引：倒排索引，排序索引，布隆过滤器，范围索引等。
查询：向量化计算，MPP查询，支持多表Join
智能优化器：支持CBO和RBO
PipeLine执行：算子粒度并发级别调整
多态Schema：自动拓展Schema(2.0)
文本字段倒排索引，布隆过滤，实现类ES文本索引功能
湖仓一体：湖仓加速，元数据打通，支持Catalog
物化视图：单表物化，多表物化
对比Trino(Presto)有3倍的性能提升
高度兼容Mysql协议，支持高并发，多表Join性能好，支持事务导入，支持物化视图，支持实时和离线导入，支持联邦查询，支持倒排索引
应用案例：主要有画像，用户行为分析，日志分析，实时、离线报表分析

二、相关问题

1、具备算子落盘能力，算子落盘到什么地方？

类似spark计算过程中算子数据落盘，支持算子数据落盘到本地磁盘节省内存使用，提升计算吞吐

2、比Spark，Flink ETL 性能怎么样？

因为使用向量化处理，比他们快，但是数据量不能太大，几十TB支持不了，10TB以内比较适合。

3、混合负载是这么概念？

可以进行多种场景查询，比如高并发查询和低频大数据量分析查询同时查询集群，不相互影响。不同用户的查询实现资源隔离，查询和写入都可以指定资源组，也可以单独控制某个用户的查询资源使用量。

4、部署方式有哪些？

本地：可以做到冷热数据分离，不同热度的数据放在不同的磁盘上

云：实现存算分离，读取对象存储暂时没有查询缓存的能力，Doris内部是有结果缓存能力的

5、集群机器机型推荐？

FE 16c 64g ssd

BE 32c 128g ssd

cpu 与内存的比例最好是：1:4

6、FE 支持高并发，如果要提升性能，一般怎么提升性能？

FE 分为observer,follower,leader角色

主从竞选只需要3个follower参与就可以了，如果要提升集群性能可以添加observer数量，如果为了提升极致的高可用，可以让这3个参加竞选的FE不提供数据服务

8、关于doris 查询外表

是使catlog方式获取元数据，不是使用映射表方式，Catalog 可以排除一些表，但权限不能同步过来。

Hive Catalog 支持动态刷新功能，其他的动态同步能力已开发好，正式版本还没发布。

9、类似监控业务是否能用Doris来实现？

可以，通过Flink推送的方式写入，能够查询到未刷写到磁盘的数据

10、查询外表时sql是否能透传？

不能

11、关于统一查询网关

Doris 支持联邦查询，查询多种Catalog，能缓存元数据信息，从而支持查询多种数据源，可以通过Doris作为统一查询网关去查询。

12、Doris与Presto性能对比如何，能否通过Doris查询Presto？

查询外部数据经过测试性能比Presto 更优，有3倍的性能提升；可以Doris可以查询Presto但是存在Presto 语法暂时还不兼容。

13、关于Doris 和Starocks差异

Starocks 运营比较早，融资情况比较差，社区活跃度不高。

Doris支持的场景更多，目标是能实现All in one，集成多个组件优点。

14、Doris是否支持Bulkload方式导入？

支持

15、物化视图能力？

查询时物化视图对用户透明的，建议用户按需手动创建物化视图，不推荐一张明细表创建多个物化视图，不能根据业务查询自动创建或推荐cube

16、关于权限控制

Mysql具有的权限能力Doris都有。查询Hive表时，某个用户Hive有的权限查询的表，Doris这边没有，需要重新赋权。

实现方式有两种：

1、配置一个Hive Catalog 配置时，可以配置Hive超管用户，在Doris这边再对每个用户重新赋权，在Doris侧做权限管控，查询Hive时使用超管去查询hive数据

2、配置每个业务自己创建自己的Catalog，每个Catalog配置不同的用户权限，但是这样容易形成非常多的Catalog，不利于管理。

zxf126126

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Doris 最新技术能力调研

不同用户的查询实现资源隔离，查询和写入都可以指定资源组，也可以单独控制某个用户的查询资源使用量。1、配置一个Hive Catalog 配置时，可以配置Hive超管用户，在Doris这边再对每个用户重新赋权，在Doris侧做权限管控，查询Hive时使用超管去查询hive数据。Doris 支持联邦查询，查询多种Catalog，能缓存元数据信息，从而支持查询多种数据源，可以通过Doris作为统一查询网关去查询。查询Hive表时，某个用户Hive有的权限查询的表，Doris这边没有，需要重新赋权。
复制链接

扫一扫