离线数据Join我懂,但是实时数据怎么做Join的? by彭文华


刚接触实时数据的时候,那时候比较时兴叫“流式数据”。我就非常怀疑实时数据的应用场景极其有限。别的不说,单说 Join 这个非常常用的数据操作,你说咋实现?

Join 是咋回事?

在关系型数据库中,两个表的 Join 原理其实还是比较容易理解的。我们用最朴素的方式方法去理解,就是这个样子:

主表和副表进行 Join ,其实就是拿主表的每一条记录跟副表的每一条记录进行查询、匹配。有人说了,匹配上一条是不是就可以了?当然不行了,因为可能会存在多对多的关系,所以必须要每一条进行匹配。

匹配结束后,把匹配的结果进行合并,然后输出结果,这就是全表 Join 的原理了。不过这种方式简单且容易理解,但是这开销也太大了吧!相当于 N 个全表扫描了。

这种情况在一般的场景不多见,因为有经验的数据工程师会用第二种方法:

其实就是在副表的关联字段上建一个索引。这样,主表在去找数据的时候,就不用做全表扫描了,索

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值