Doris 支持两种 join的物理算子,分别是Hash join 和Nest Loop join
-
Hash Join:
- Hash Join是一种基于哈希表的Join算法。
- 在执行Hash Join时,Doris会在右表上根据等值Join列建立哈希表。
- 随后,左表的数据会流式地利用这个哈希表进行Join计算。
- 这种方式的优点是处理速度快,尤其适用于等值Join的场景。Hash Join的限制在于它只能用于等值Join,对于不等值Join或复杂Join条件可能不适用。
-
Nest Loop Join:
- Nest Loop Join则通过两个嵌套的循环来实现Join操作。
- 它对于不等值的Join场景特别有用,例如大于、小于或需要求笛卡尔积的场景。
- 尽管Nest Loop Join是一个通用的Join算子,但其性能表现通常较差,特别是在处理大规模数据时。
Join数据的Shuffle方式
由于Doris是基于MPP实现的数据库,因此在join的过程中,需要通过数据调度保证数据最终的正确性。
Shuffle方式 | 解释 | 网络开销 | 物理算子 | 适用场景 | 图示 |
BroadCast | 将右表全量的数据都放在左表上 | N*T(R) | Hash Join/ NestLoop Join | 通用 | |
Shuffle | 在join列算出对应的桶值,将左右表数据计算出对应的分桶,再将数据发送到对应的分桶上做join | T(S)+T(R) | Hash Join | 通用 | |
Bucket Shuffle | Doris 本身带有分桶列,假如两张表需要做 Join,并且 Join 列是左表的分桶列,那么左表的数据可以不用移动,右表通过左表的数据分桶发送数据就可以完成 Join | T(R) | Hash Join | 存在左表的分布式列,且左表执行时为单分区 | |
Colocate | 在数据导入的时候,根据预设的 Join 列的场景已经做好了数据的 Shuffle,数据已经预先分区,直接在本地进行 Join 计算 | 0 | Hash Join | 存在左表的分布式列,且左右表属于一个Colocate Group |
存在S与R关系的join操作,N表示参与join的节点数量,T表示表单中存在的元组的数目
灵活度从高到底,性能从低到高。