Doris的一些进阶用法

最新推荐文章于 2024-07-04 13:55:28 发布

All996

最新推荐文章于 2024-07-04 13:55:28 发布

阅读量4.1k

点赞数 1

文章标签： mysql 数据库

本文链接：https://blog.csdn.net/weixin_67024075/article/details/130994404

版权

本文详细介绍了Doris的进阶用法，包括如何修改表名、变更表结构，如增加、删除和修改列，以及管理分区。在表结构变更中，重点讨论了Schema Change的原理、作业创建、查看和取消。对于分区管理，内容涵盖了增加、删除和修改分区的规则。此外，还讲解了动态分区和临时分区的概念、操作以及它们在数据导入和查询中的应用。最后，探讨了Doris中的多种JOIN优化策略，如Shuffle Join、Broadcast Join、Bucket Shuffle Join和Colocation Join，以及Runtime Filter的使用，以提升查询效率。

摘要由CSDN通过智能技术生成

6.doris进阶

6.1修改表

6.1.1修改表名

示例：

将名为 table1 的表修改为 table2

SQL
ALTER TABLE table1 RENAME table2;

-- 示例
ALTER TABLE aggregate_test RENAME aggregate_test1;

将表 example_table 中名为 rollup1 的 rollup index 修改为 rollup2

将表 example_table 中名为 p1 的 partition 修改为 p2

SQL
ALTER TABLE example_table RENAME PARTITION old_partition_name new_partition_name ;

-- 示例：
ALTER TABLE expamle_range_tbl RENAME PARTITION p201701 newp201701;

mysql> show partitions from expamle_range_tbl \G;
*************************** 1. row ***************************
             PartitionId: 11738
           PartitionName: newp201701
          VisibleVersion: 1
      VisibleVersionTime: 2023-01-03 16:06:05
                   State: NORMAL
            PartitionKey: date
                   Range: [types: [DATE]; keys: [0000-01-01]; ..types: [DATE]; keys: [2017-02-01]; )
         DistributionKey: user_id
                 Buckets: 1
          ReplicationNum: 3
           StorageMedium: HDD
            CooldownTime: 9999-12-31 23:59:59
LastConsistencyCheckTime: NULL
                DataSize: 0.000
              IsInMemory: false
       ReplicaAllocation: tag.location.default: 3

6.1.2表结构的变更

用户可以通过 Schema Change 操作来修改已存在表的 Schema。目前 Doris 支持以下几种修改:

增加、删除列

修改列类型

调整列顺序

增加、修改 Bloom Filter index

增加、删除 bitmap index

6.1.2.1原理介绍

执行 Schema Change 的基本过程，是通过原 Index 的数据，生成一份新 Schema 的 Index 的数据。其中主要需要进行两部分数据转换：

一是已存在的历史数据的转换；

二是在 Schema Change 执行过程中，新到达的导入数据的转换。

SQL
+----------+
| Load Job |
+----+-----+
     |
     | Load job generates both origin and new index data
     |
     |      +------------------+ +---------------+
     |      | Origin Index     | | Origin Index |
     +------> New Incoming Data| | History Data |
     |      +------------------+ +------+--------+
     |                                  |
     |                                  | Convert history data
     |                                  |
     |      +------------------+ +------v--------+
     |      | New Index        | | New Index    |
     +------> New Incoming Data| | History Data |
            +------------------+ +---------------+

6.1.2.2创建作业

Schema Change 的创建是一个异步过程，作业提交成功后，用户需要通过 SHOW ALTER TABLE COLUMN 命令来查看作业进度。

语法：

SQL
ALTER TABLE [database.]table alter_clause;

schema change 的 alter_clause 支持如下几种修改方式：

向指定 index 的指定位置添加一列

SQL
ALTER TABLE db.table_name
-- 如果增加的是key列那么，需要在列类型后面增加key 这个关键字
-- 如果增加的是value列那么，是聚合表模型，需要指定列的聚合类型   如果是明细模型和唯一模型，不需要指定
ADD COLUMN column_name column_type [KEY | agg_type] [DEFAULT "default_value"]
[AFTER column_name|FIRST] -- 确定列的位置   如果不写，默认插在最后
[TO rollup_index_name]   -- 如果你是针对rollup表新增一个列，那么这个列明基表中不能有
[PROPERTIES ("key"="value", ...)]

-- 明细模型中添加value列
ALTER TABLE test.expamle_range_tbl ADD COLUMN abc varchar AFTER age；

-- 明细模型中添加key 列
ALTER TABLE test.expamle_range_tbl ADD COLUMN abckey varchar key AFTER user_id;

-- 聚合模型中添加一个value列
mysql> ALTER TABLE test.ex_user ADD COLUMN abckey int sum AFTER cost;

注意：

聚合模型如果增加 value 列，需要指定 agg_type

非聚合模型（如 DUPLICATE KEY）如果增加key列，需要指定KEY关键字

不能在 rollup index 中增加 base index 中已经存在的列（如有需要，可以重新创建一个 rollup index）

示例：

SQL
-- 源schema:

+-----------+-------+------+------+------+---------+-------+
| IndexName | Field | Type | Null | Key | Default | Extra |
+-----------+-------+------+------+------+---------+-------+
| tbl1      | k1    | INT | No   | true | N/A     |       |
|           | k2    | INT | No   | true | N/A     |       |
|           | k3    | INT | No   | true | N/A     |       |
|           |       |      |     |      |         |       |
| rollup2   | k2    | INT | No   | true | N/A     |       |
|           |       |      |      |      |         |       |
| rollup1   | k1    | INT | No   | true | N/A     |       |
|           | k2    | INT | No   | true | N/A     |       |
+-----------+-------+------+------+------+---------+-------+

-- 源schema中没有k4和k5列，所以可以往rollup表中添加 k4和k5列，在往rollup表中添加的过程，也会往base表中添加一份
ALTER TABLE tbl1
ADD COLUMN k4 INT default "1" to rollup1,
ADD COLUMN k4 INT default "1" to rollup2,
ADD COLUMN k5 INT default "1" to rollup2;

-- 改变完成后，Schema 变为       base表中也会相应的添加k4和k5
+-----------+-------+------+------+------+---------+-------+
| IndexName | Field | Type | Null | Key | Default | Extra |
+-----------+-------+------+------+------+---------+-------+
| tbl1      | k1    | INT | No   | true | N/A     |       |
|           | k2    | INT | No   | true | N/A     |       |
|           | k3    | INT | No   | true | N/A     |       |
|           | k4    | INT | No   | true | 1       |       |
|           | k5    | INT | No   | true | 1       |       |
|           |       |      |      |      |         |       |
| rollup2   | k2    | INT | No   | true | N/A     |       |
|           | k4    | INT | No   | true | 1       |       |
|           | k5    | INT | No   | true | 1       |       |
|           |       |      |      |      |         |       |
| rollup1   | k1    | INT | No   | true | N/A     |       |
|           | k2    | INT | No   | true | N/A     |       |
|           | k4    | INT | No   | true | 1       |       |
+-----------+-------+------+------+------+---------+-------+

-- 这样的导入方式错误
-- 因为base表中已经存在k3，导入的时候无法将base表中在添加一个叫k3的列，重复
ALTER TABLE tbl1
ADD COLUMN k3 INT default "1" to rollup1

向指定 index 添加多列

从指定 index 中删除一列

SQL
ALTER TABLE db.table_name
DROP COLUMN column_name
[FROM rollup_index_name]

-- 删除明细表中的value列
ALTER TABLE test.expamle_range_tbl DROP COLUMN abc;

-- 删除明细表中的key列
ALTER TABLE test.expamle_range_tbl DROP COLUMN abckey;

-- 删除聚合模型中的value列
ALTER TABLE test.ex_user DROP COLUMN abckey;

注意：

不能删除分区列

如果是从 base index 中删除列，则如果 rollup

最低0.47元/天解锁文章

All996

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Doris的一些进阶用法

如果此时将分区粒度改为 MONTH，则系统会尝试创建范围为 ["2020-05-01", "2020-06-01") 的分区，而该分区的分区范围和已有分区冲突，所以无法创建。在某些使用场景下，用户会将表按照天进行分区划分，每天定时执行例行任务，这时需要使用方手动管理分区，否则可能由于使用方没有创建分区导致数据导入失败，这给使用方带来了额外的维护成本。p1 分区不再存在。在第二天，即 2020-05-30，会创建新的分区 p20200602: ["2020-06-02", "2020-06-03")
复制链接

扫一扫