Doris
文章平均质量分 86
AI_Maynor
maynor1024.live ,博客之星大数据领域Top1,大厂程序员,GitHub项目awesome-chatgpt-project作者, 全网技术矩阵粉丝7w+
展开
-
Apache Doris新手指南:10分钟内搭建数据分析引擎!
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景,这个简短的指南将告诉你如何下载 Doris 最新稳定版本,在单节点上安装并运行它,包括创建数据库、数据表、导入数据及查询等。这个参数我们在安装的时候是必须要配置的,特别是当一台机器拥有多个IP地址的时候,我们要为 FE 指定唯一的IP地址。转载 2023-12-21 10:22:53 · 457 阅读 · 0 评论 -
下一代实时数据库:Apache Doris 【七】数据模型
数据在不同时间,可能聚合的程度不一致。因为在实现上, 我们可以通过如“导 入时对行进行计数,保存 count 的统计信息”,或者在查询时“仅扫描某一列数据,获得 count 值”的方式, 只需很小的开销, 即可获得查询结果。虽然同样无法利用预聚合的特性,但是不 受聚合模型的约束,可以发挥列存模型的优势(只读取相关列,而不需要读取所有 Key 列)在聚合模型中, 模型对外展现的,是最终聚合后的数据。也就是说,任何还未聚合的数 据(比如说两个不同导入批次的数据) ,必须通过某种方式, 以保证对外展示的一致性。原创 2023-12-19 10:14:05 · 1067 阅读 · 0 评论 -
下一代实时数据库:Apache Doris 【六】数据划分
如果不使用 Partition ,则描述的是对整个表的数据的划分规则。此时,当多个点查询并发时, 这些查询有较大的概率分别触发不同的分桶扫描, 各 个查询之间的 IO 影响较小(尤其当不同桶分布在不同磁盘上时) ,所以这种方式适合 高并发的点查询场景。如按天分区,当每天的数 据量差异很大时, 可以通过指定分区的分桶数,合理划分不同分区的数据,分桶列建议选择 区分度大的列。如果一个查询条件不包含所有分桶列的等值条件,那么该查询会触发所有分桶同时 扫描,这样查询的吞吐会增加,单个查询的延迟随之降低。原创 2023-12-18 14:27:08 · 1018 阅读 · 0 评论 -
下一代实时数据库:Apache Doris 【五】数据表的创建
1)创建 test 用户2)创建数据库3)用户授权在 Doris 中,数据都以关系表(Table)的形式进行逻辑上的描述。一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。⚫ 在默认的数据模型中,Column 只分为排序列和非排序列。存储引擎会按照排序列对数据进行排序存储,并建立稀疏索引,以便在排序数据上进行快速查找。⚫ 而在聚合模型中,Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和。原创 2023-09-25 00:00:00 · 197 阅读 · 0 评论 -
下一代实时数据库:Apache Doris 【四】扩容缩容
Leader 宕机,则剩下的 Follower 会自动选出新的 Leader,保证写入高可用。⚫ 该命令是一个异步操作。命令下发后,Doris 会尝试将该 BE 上的数据向其。注意:DROP BACKEND 会直接删除该 BE,并且其上的数据将不能再恢复!取消后,该 BE 上的数据将维持当前剩余的数据量。也可以通过页面访问进行监控,访问 8030,账户为 root,密码默认为空不用填写。当然,停止后,正在其上运行的作业会失败,他 BE 节点迁移,当所有数据都迁移完成后,Doris 会自动删除该节点。原创 2023-09-24 00:00:00 · 286 阅读 · 1 评论 -
java.net.ConnectException: 拒绝连接 (Connection refused) doris
java.net.ConnectException: 拒绝连接 (Connection refused) doris原创 2023-09-20 11:16:08 · 2826 阅读 · 0 评论 -
下一代实时数据库:Apache Doris 【三】集群部署
(8) 根据以往经验,当集群可用性要求很高时(比如提供在线业务), 可以部署 3 个 Follower 和 1-3 个 Observer。(2) 拷贝源码 fs_broker 的 output 目录下的相应 Broker 目录到需要部署的所有节点 上,改名为: apache_hdfs_broker。(2) BE 的磁盘空间主要用于存放用户数据, 总磁盘空间按用户总数据量* 3 (3 副本) 计算, 然后再预留额外 40%的空间用作后台 compaction 以及一些中间数据的存放。原创 2023-09-22 00:00:00 · 860 阅读 · 0 评论 -
下一代实时数据库:Apache Doris 【二】编译与安装
因为 build-env-for-0.15.0 版本镜像升级了 thrift(0.9 -> 0. 13),需要通过–clean 命令强制 使用新版本的 thrift 生成代码文件,否则会出现不兼容的代码。以挂载本地 Doris 源码目录的方式运行镜像, 这样编译的产出二进制文件会存储在宿主 机中, 不会因为镜像退出而消失。安装 Doris,需要先通过源码编译,主要有两种方式:使用 Docker 开发镜像编译(推荐)、直接编译。防止每次启动镜像编译时,重复下载 maven 的依赖库。原创 2023-08-08 14:06:41 · 600 阅读 · 0 评论 -
下一代实时数据库:Apache Doris 【一】简介
Apache Doris 由百度大数据部研发(之前叫百度 Palo,2018 年贡献到 Apache 社区后, 更名为 Doris ) ,在百度内部, 有超过 200 个产品线在使用, 部署机器超过 1000 台, 单一 业务最大可达到上百 TB。Apache Doris 是一个现代化的 MPP (Massively Parallel Processing,即大规模并行处理) 分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。原创 2023-08-06 16:50:06 · 1993 阅读 · 0 评论