参加了一个 关于OLAP技术分享的交流会,记录了一些自己的理解,文章所表述的观点不一定对,仅供参考
分享视频链接:https://www.datafuntalk.com/p/t_pc/course_pc_detail/image_text/i_63143099e4b050af23b242fa
OLAP定义是什么?
数据仓库的替代品还是 解决数据到达用户的最后1公里问题的方案
回答1:
- 数据时效要求比较高
- 查询数据类型没有数据湖那么宽泛
- 大数据中是一个重要的组件
回答2:
- 支持查询qps比较高
- presto也属于OLAP
- OLAP就是即席分析,
- 在小一点的公司可以替代数仓,大一点的公司仅仅是解决一部分的问题
- 对性能要求比较高的需求,还是要把数据导入OLAP引擎,根据业务的需求 是否移动数据,如果性能要求高就移动数据,性能要求低就不需要移动数据
回答3:
- OLAP数据应用的一部分,离用户比较近
- 数据时效要求比较高
OALP的价值体现是什么,是怎么落地的?
回答1:
- 应用场景很多比如 多维分析,人物画像,日志检索,endpoint查询(点查)等场景
- OLAP 引擎在查询时效性 一般要优于hive 、spark
未来发力的方向: - 希望能查询到数据湖的数据 如hive 、hudi表
- 希望OLAP 云原生,但是性能又不能差太远
回答2:
- 应用于数据驱动业务决策,人人都是数据分析师,OLAP更靠近用户
- 业务团队利用OLAP工具自己做开发
- OLAP落地对于普通用户比较困难
回答3:
- 应用于经营数据的监控
- 更快速,更实时的获取数据支持决策判断
落地 - 现有的OLAP引擎选型在 性能,灵活性,数据规模 上只能3选2,牺牲1个
- 比如 kylin 性能,数据规模可以,但是牺牲了灵活性
- Doris 灵活,性能比好,实时性差一些
OLAP技术未来发展趋势有哪些?
回答1:
- 内核执行,更好的向量化执行
- OLAP云原生,资源的弹性,提升资源利用率,实现降本增效
- OLAP 与 湖仓 融合
- OLAP 与 AI的结合
回答2:
- 对于小公司来说 一个引擎解决所有OLAP应用场景(all in one) 是趋势
- 通过物化视图来实现实时数仓的分层
- 云原生 实现降本增效
OLAP技术选型应该注意哪些问题?
回答1:
- 根据不同的应用场景选择不同的引擎:
- 灵活的探索,数据规模大选:presto,spark
- 分析模型固定:数据的预计算 , 偏离线选kylin 实时要求高选Druid预计算 ,追求灵活选择Doris
- 后续希望平台能集成不同引擎的优势,变相实现一个OLAP平台实现所有OLAP应用场景(all in one )
回答2:
- 小公司更关注成本,希望找一个尽量覆盖大部分场景的引擎,推荐使用Doris 或者starrocks
- 大公司更关注满足需求,性能和稳定性,可以根据业务场景针对性选择不同引擎
回答3:
- OLAP上云的业务一般都是小应用,性能要求不是太高
- 个OLAP引擎功能在不断发展过程中逐渐趋同
- 旧的业务如果要迁移到新的引擎( All in one)很困难
市面上现有OLAP技术有哪些痛点?
回答1:
- 为了提升查询性能,必须导数刷数到OLAP引擎,数据有冗余,存储成本高。
- OLAP上云存在数据无法本地化的问题,多级缓存可以解决远程存储问题,但是还不够完善。
- 学习OLAP引擎存在一定门槛,业务同学和引擎的同学需要相互配合才能更好的完成业务需求。
回答2:
- 如果希望建模更科学,需要业务同学和引擎同学协同优化,最好能做到既要了解业务,又要了解引擎
- 增强稳定性 - 通过资源隔离,提升查询稳定性
- 减低成本 - 期望实现存算分离
OLAP应用场景有哪些?
- 即席查询 - 不固定sql的数据探索,对引擎的灵活性要求比较高
- 固定sql查询 - 这种一般需要预聚合,此场景具体细分可分为下面几种情况:
- 查询频率不高,比如用于图表展示的数据,在看图表的时候才会发起查询
- 查询频率高 查询离线数据 ,比如查询上个月的销售总额
- 查询频率高 查询实时数据,比如 查询最近1小时广告投放情况、应用监控告警等
- 人物画像场景 - 比如根据不同人群的标签,圈选人群等
总结
前面介绍了OLAP(联机分析处理)的定义、价值体现、未来发展趋势、技术选型注意事项以及应用场景。其中,OLAP被定义为一种基于多维数据模型的数据分析和查询技术,一定程度上可以替代数据仓库,解决了数据到达用户的最后1公里问题。OLAP的价值体现在于支持查询QPS比较高,可以用于多维分析、人物画像、日志检索、endpoint查询等场景,落地后可以支持数据驱动业务决策,人人都是数据分析师。未来OLAP技术的发展趋势包括内核执行的向量化执行、OLAP云原生、OLAP与数据湖的融合、OLAP与AI的结合等。在进行技术选型时,应根据不同的应用场景选择不同的引擎,例如,灵活的探索可以选择Presto或Spark,而分析模型固定可以选择Kylin、Druid或Doris。OLAP应用场景包括即席查询、固定SQL查询、人物画像等。在应用场景中。市面上现有的OLAP技术存在一些痛点,例如数据冗余、存储成本高、学习门槛高等,需要进一步解决。