wer0735的博客

专注于大数据数据仓库

数据仓库所思

1 设计表的时候,需要考虑到存储能量和数据沉淀,减少计算。比如说,计算近3个月的指标,可以通过上一次的近3个月数、上一日的数和当前日的数想计算得出,而不需要对三个月的数做sum操作。

      当日的近3月累计数 = 上日的近3月累计数 + 当日的近1日的增量数 - 上日的近1日的增量数

 以此类推,近3日、近7日、近一月等等都可以通过这个方式计算,这样节省大量计算资源。


2 关于如何构建数据仓库的构想

数据仓库如社会,存在多种多样的生态;表如人,存在多种角色,你可能是某人的男友,某人的儿子,某人的学生。表也是如此,存在多种维度。

现在问题来了,如何构建数据仓库能支持当今快速发展的业务,满足各式各样的需求。我的思考,当今社会也在快速发展,每天产生不同的组织和生态,那么人是如何适应并生存的呢?

通过我的观察,发现一个能快速适应当今社会的人,都具备有哪些特点呢?
首先,他具有一专多精的特点,能会和他对接的组织。一专是他立身的资本,多精是指他对其他领域做过研究,有比较深的理解。当他和其他领域的人去做链接的时候,可以聊得上理解对方的想法,并可以产生化学反应。
其次,会混圈子。现在最顶级的人才,其实大家都互相认识或通过朋友能链接的上。也就是说,他们其实都是一个圈子的人。平时,没什么事,开个讨论会啊,聊聊专业领域啊,聊聊未来发展趋势啊,或者就聊聊人生等杂七杂八的。这也是,现在为何有这么多论坛的出现。

如果你像创业,想寻找合伙人或专业人才,基于以上两点就能很快定位。雷军创建小米的寻找合伙人也是通过这种方式寻找的。

那么,在一个庞大复杂的数据仓库中,我们如何快速寻找数据呢?
我有三点看法:
1 属性,给表配置丰富的属性。就向给人打标签一样。
2 组织,这个和维表很像,但是这个需要描述清楚与那张表关联起来。就像人一样,你进某个组织都需要登记在册的。
3 公共层,有一些关联紧密的数据,经常会做关联查询的,我们把它们加工成公共表。

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wer0735/article/details/79964032
文章标签: 数据仓库
个人分类: 数据仓库~大数据
上一篇Hive中reduce个数设定
下一篇人工智能-阿尔法狗背后的简单原理:贝叶斯公式
想对作者说点什么? 我来说一句

所思K20控制面板

2017年07月20日 1.94MB 下载

所思P系列live机架安装包

2017年07月20日 35.47MB 下载

所思DIY机架

2017年11月10日 102.97MB 下载

所思PK3通用安装包

2014年06月02日 33.31MB 下载

所思调电音 虚拟ASIO

2014年07月09日 385KB 下载

所思控制面板

2013年07月24日 22.66MB 下载

没有更多推荐了,返回首页

关闭
关闭