Doris-join实现

Doris 支持两种 join的物理算子,分别是Hash join 和Nest Loop join

  1. Hash Join:

    • Hash Join是一种基于哈希表的Join算法。
    • 在执行Hash Join时,Doris会在右表上根据等值Join列建立哈希表。
    • 随后,左表的数据会流式地利用这个哈希表进行Join计算。
    • 这种方式的优点是处理速度快,尤其适用于等值Join的场景。Hash Join的限制在于它只能用于等值Join,对于不等值Join或复杂Join条件可能不适用。
  2. Nest Loop Join:

    • Nest Loop Join则通过两个嵌套的循环来实现Join操作。
    • 它对于不等值的Join场景特别有用,例如大于、小于或需要求笛卡尔积的场景。
    • 尽管Nest Loop Join是一个通用的Join算子,但其性能表现通常较差,特别是在处理大规模数据时。

Join数据的Shuffle方式

由于Doris是基于MPP实现的数据库,因此在join的过程中,需要通过数据调度保证数据最终的正确性。

Shuffle方式

解释

网络开销

物理算子

适用场景

图示

BroadCast

将右表全量的数据都放在左表上

N*T(R)

Hash Join/

NestLoop Join

通用

Shuffle

在join列算出对应的桶值,将左右表数据计算出对应的分桶,再将数据发送到对应的分桶上做join

T(S)+T(R)

Hash Join

通用

Bucket Shuffle

Doris 本身带有分桶列,假如两张表需要做 Join,并且 Join 列是左表的分桶列,那么左表的数据可以不用移动,右表通过左表的数据分桶发送数据就可以完成 Join 

T(R)

Hash Join

存在左表的分布式列,且左表执行时为单分区

Colocate

在数据导入的时候,根据预设的 Join 列的场景已经做好了数据的 Shuffle,数据已经预先分区,直接在本地进行 Join 计算

0

Hash Join

存在左表的分布式列,且左右表属于一个Colocate Group

存在S与R关系的join操作,N表示参与join的节点数量,T表示表单中存在的元组的数目

灵活度从高到底,性能从低到高。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Gurean

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值