数据仓库【模型好坏】

大数据松松

已于 2024-02-04 16:11:47 修改

阅读量393

点赞数 1

分类专栏：数据仓库文章标签：数据仓库大数据

于 2024-01-31 17:53:07 首次发布

本文链接：https://blog.csdn.net/xiayuhaisong/article/details/135958947

版权

数据仓库专栏收录该内容

6 篇文章 1 订阅

订阅专栏

本文探讨了数据仓库的内外部评价标准，强调了模型与业务需求的融合，以及如何通过用户满意度、复用度、建模规范等维度来评估其效能。同时，文章提出了量化数据仓库效能的方法，如文档记录、项目支持、业务改进等方面的数据对比。

摘要由CSDN通过智能技术生成

引言

数据仓库的好坏分为内部评价标准和外部评价标准。数据仓库既不能闭门造车，也不能完全跟着业务需求走，好的数据仓库模型一定是将数仓模型跟业务需求很好的兼容结合，适合我们自己的才是最好的。数据仓库相比运营、分析以及产品是距离业务比较远的，很难产生立竿见影的效果，我们怎么评价工作的效能。

评价方面

外部需求方：用户的满意度。
1. 数据仓库对上服务企业领导支持数据决策，对下支持日常运营、分析业务问题。
2. 好的数据仓库不仅能提供完整的数据指标体系，更是可以发现业务问题，提供解决思路。
内部建设方：数据比较丰富完善、数据复用性强、规范性强
1. 完善度：包括DWD、DWS、ADS层。跨层引用率：看DWD层是否完善，就看ODS层有多少表被DWS/ADS层引用。DWD以上的层引用的越多，就说明越多的任务是基于原始数据进行深度聚合计算的，明细数据没有积累，无法被复用，数据清洗、格式化、集成存在重复开发；汇总数据查询比例：考核汇总数据的完善度，主要看汇总数据能直接满足多少查询需求，如果汇总数据无法满足需求，使用数据的人就必须使用明细数据甚至原始数据。
2. 复用度：数仓模型涉及的核心是追求模型的复用和共享，引用系数越高，说明数仓的复用性越好。
3. 建模是否高内聚低耦合：业务上将相近或者相关的数据按照主题进行聚拢，方便查询和应用；
4. 核心模型和扩展模型分离：根据用户的访问，将高频访问跟低频访问或者个性化的数据进行拆分，减少互相之间的影响；
5. 命名清洗可理解：任务、表的命名需要清晰规范、一致，便于理解，字段指标命名同名同义；
6. 公共逻辑下沉并且单一：多次处理的逻辑尽量下沉至公共层，一次性处理可以减少计算资源浪费，保证数据口径统一。减少ODS层数据表的访问率，好的数据模型是可以直接从dwd标准层进行支持分析的。公共层的下游依赖的统计；
7. 成本与性能平衡：适当的数据冗余可以减少表之间的jion，减少shuffle，但是也不要过度冗余增加存储成本跟维护成本，控制计算时间、计算资源以及存储成本；
8. 数据产出及时、稳定：处理逻辑不变，不同时间多次运行要保证数据的结果一致。保证日常任务时效产出；
9. 规范度：主题域归属、分层信息、脚本任务以及表命名规范，字段指标命名统一规范（建立统一词根词素库）；
10. 健壮性：业务快速迭代的情况下不会影响底层模型，业务系统新增或者变动对上层做到无感知迭代；