关于OLAP技术选型的思考

参加了一个 关于OLAP技术分享的交流会,记录了一些自己的理解,文章所表述的观点不一定对,仅供参考
分享视频链接:https://www.datafuntalk.com/p/t_pc/course_pc_detail/image_text/i_63143099e4b050af23b242fa

OLAP定义是什么?

数据仓库的替代品还是 解决数据到达用户的最后1公里问题的方案
回答1:

  • 数据时效要求比较高
  • 查询数据类型没有数据湖那么宽泛
  • 大数据中是一个重要的组件

回答2:

  • 支持查询qps比较高
  • presto也属于OLAP
  • OLAP就是即席分析,
  • 在小一点的公司可以替代数仓,大一点的公司仅仅是解决一部分的问题
  • 对性能要求比较高的需求,还是要把数据导入OLAP引擎,根据业务的需求 是否移动数据,如果性能要求高就移动数据,性能要求低就不需要移动数据

回答3:

  • OLAP数据应用的一部分,离用户比较近
  • 数据时效要求比较高

OALP的价值体现是什么,是怎么落地的?

回答1:

  • 应用场景很多比如 多维分析,人物画像,日志检索,endpoint查询(点查)等场景
  • OLAP 引擎在查询时效性 一般要优于hive 、spark
    未来发力的方向:
  • 希望能查询到数据湖的数据 如hive 、hudi表
  • 希望OLAP 云原生,但是性能又不能差太远

回答2:

  • 应用于数据驱动业务决策,人人都是数据分析师,OLAP更靠近用户
  • 业务团队利用OLAP工具自己做开发
  • OLAP落地对于普通用户比较困难

回答3:

  • 应用于经营数据的监控
  • 更快速,更实时的获取数据支持决策判断
    落地
  • 现有的OLAP引擎选型在 性能,灵活性,数据规模 上只能3选2,牺牲1个
  • 比如 kylin 性能,数据规模可以,但是牺牲了灵活性
  • Doris 灵活,性能比好,实时性差一些

OLAP技术未来发展趋势有哪些?

回答1:

  • 内核执行,更好的向量化执行
  • OLAP云原生,资源的弹性,提升资源利用率,实现降本增效
  • OLAP 与 湖仓 融合
  • OLAP 与 AI的结合

回答2:

  • 对于小公司来说 一个引擎解决所有OLAP应用场景(all in one) 是趋势
  • 通过物化视图来实现实时数仓的分层
  • 云原生 实现降本增效

OLAP技术选型应该注意哪些问题?

回答1:

  • 根据不同的应用场景选择不同的引擎:
  • 灵活的探索,数据规模大选:presto,spark
  • 分析模型固定:数据的预计算 , 偏离线选kylin 实时要求高选Druid预计算 ,追求灵活选择Doris
  • 后续希望平台能集成不同引擎的优势,变相实现一个OLAP平台实现所有OLAP应用场景(all in one )

回答2:

  • 小公司更关注成本,希望找一个尽量覆盖大部分场景的引擎,推荐使用Doris 或者starrocks
  • 大公司更关注满足需求,性能和稳定性,可以根据业务场景针对性选择不同引擎

回答3:

  • OLAP上云的业务一般都是小应用,性能要求不是太高
  • 个OLAP引擎功能在不断发展过程中逐渐趋同
  • 旧的业务如果要迁移到新的引擎( All in one)很困难

市面上现有OLAP技术有哪些痛点?

回答1:

  • 为了提升查询性能,必须导数刷数到OLAP引擎,数据有冗余,存储成本高。
  • OLAP上云存在数据无法本地化的问题,多级缓存可以解决远程存储问题,但是还不够完善。
  • 学习OLAP引擎存在一定门槛,业务同学和引擎的同学需要相互配合才能更好的完成业务需求。

回答2:

  • 如果希望建模更科学,需要业务同学和引擎同学协同优化,最好能做到既要了解业务,又要了解引擎
  • 增强稳定性 - 通过资源隔离,提升查询稳定性
  • 减低成本 - 期望实现存算分离

OLAP应用场景有哪些?

  • 即席查询 - 不固定sql的数据探索,对引擎的灵活性要求比较高
  • 固定sql查询 - 这种一般需要预聚合,此场景具体细分可分为下面几种情况:
    • 查询频率不高,比如用于图表展示的数据,在看图表的时候才会发起查询
    • 查询频率高 查询离线数据 ,比如查询上个月的销售总额
    • 查询频率高 查询实时数据,比如 查询最近1小时广告投放情况、应用监控告警等
  • 人物画像场景 - 比如根据不同人群的标签,圈选人群等

总结

前面介绍了OLAP(联机分析处理)的定义、价值体现、未来发展趋势、技术选型注意事项以及应用场景。其中,OLAP被定义为一种基于多维数据模型的数据分析和查询技术,一定程度上可以替代数据仓库,解决了数据到达用户的最后1公里问题。OLAP的价值体现在于支持查询QPS比较高,可以用于多维分析、人物画像、日志检索、endpoint查询等场景,落地后可以支持数据驱动业务决策,人人都是数据分析师。未来OLAP技术的发展趋势包括内核执行的向量化执行、OLAP云原生、OLAP与数据湖的融合、OLAP与AI的结合等。在进行技术选型时,应根据不同的应用场景选择不同的引擎,例如,灵活的探索可以选择Presto或Spark,而分析模型固定可以选择Kylin、Druid或Doris。OLAP应用场景包括即席查询、固定SQL查询、人物画像等。在应用场景中。市面上现有的OLAP技术存在一些痛点,例如数据冗余、存储成本高、学习门槛高等,需要进一步解决。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值