![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
初心江湖路
多学一分增一分。
展开
-
数据仓库设计的一点总结
不论使用什么方法建设数据仓库,最终的目标都是统一的------为战略层面的决策提供数据支撑。关键原则还是聚焦业务需求,展现维度结构数据,过程可控可管理,并使用迭代方式开发数据仓库项目。数据仓库建设过程其实并不复杂,总的来说可以总结为以下几点:1、业务发展衍生出数据分析需求2、基于业务需求进行的需求分析3、根据分析结果进行的维度建模与技术方案的选型4、ETL设计与开发5、数据仓库的部署...原创 2020-03-05 22:59:21 · 327 阅读 · 0 评论 -
HIVE查询优化
所有的调优都离不开对CPU、内存、IO这三样资源的权衡及调整Hive QL的执行本质上是MR任务的运行,因此优化主要考虑到两个方面:Mapreduce任务优化、SQL语句优化一、Mapreduce任务优化1、设置合理的task数量这里有几个考虑的点,一方面Hadoop MR task的启动及初始化时间较长,如果task过多,可能会导致任务启动和初始化时间远超逻辑处理时间,这种情况白白浪费了...原创 2020-02-20 16:53:50 · 915 阅读 · 1 评论 -
关于维度建模的一点总结
公司的数据都有一定的复杂性,处理时很容易被其影响,只有总结并掌握一个好的设计原则,才能应对纷繁复杂的业务细节。先总结一下数据仓库工具箱中的提到的维度建模的4步过程第一步:选择业务过程业务过程的公共特征:1)业务过程通常表示业务执行的活动,用行为动词表示2)业务过程通常由某一操作型系统来支撑,如订单管理系统3)业务过程的结果通常是建立并获得某些关键度量数据4)业务过程包含输入及输出,由...原创 2020-02-14 17:10:16 · 718 阅读 · 0 评论 -
星型模型、雪花模型、3NF、OLAP
一、星型模型在关系型数据库管理系统中实现的维度模型称为星型模型,其中每个维度表都直接和事实表连接,数据存在冗余。星型模型的两个关键部件1、 事实表事实表存储组织业务过程事件的性能度量结果。来源于同一个业务过程的底层度量结果应该存储在一个维度模型中。并允许多个组织的业务用户访问一个单一的集中式数据仓库,一个是因为数据量巨大,避免重复而浪费资源,另一个是能确保同一个企业中使用的业务数据的一致性...原创 2020-02-03 17:45:04 · 2076 阅读 · 0 评论