数据挖掘:概念与技术 第五章-数据立方体技术

数据立方体技术:

基本方体的单元是皆不能单元,非基本方体的单元是聚集单元

聚集单元在一个或者多个维上聚集,其中每个聚集维用单元记号中的星号指示。假设有一个n维数据立方体,如果a中恰有m个值不是星号,则我们说a是m维单元。如果m=n,则a是基本单元。

冰山立方体:部分物化的立方体
最小阙值称为最小支持度阙值或简称最小支持度

为了系统地压缩数据立方体,需要引入闭覆盖的概念。

闭立方体:是一个仅由闭单元组成的数据立方体

部分物化的另一种策略是只预计算涉及少数维的方体,这些方体形成对应的数据立方体的立方体外壳。

数据立方体计算的一般策略:

优化技术1:排序、散列和分组。应当对维属性使用排序、散列和分组操作,以便对相关元组重新定序和聚类。

优化技术2:同时聚集和缓存中间结果

优化技术3:当存在多个子女方体时,由最小的子女聚集。

优化技术4:可以使用先验剪枝方法有效地计算冰山立方体。

如果单元c违反某条件,则c的每个后代也将违反该条件。遵守这一性质的度量称为反单调的。

数据立法体计算方法:

多路数组聚集方法使用多维数组作为基本的数据结果,计算完全数据立方体。它是一种使用数组直接寻址的典型MOLAP方法,其中维值通过位置或对应数组位置的下标访问。

(1)把数组划分成块。块是一个立方体,它足够小,可以放入立方体计算时可用的内存。
(2)通过访问立法体单元来计算聚集。

BUC:从顶点方体向下计算冰山立方体

BUC是一种计算稀疏冰山立方体的算法。BUC代表自底向上构造,BUC的处理次序实际上是自顶向下,BUC的作者以相反的次序观察方体的格,顶点方体在底部,而基本方体在顶部。

通过在每次递归调用前都检查冰山条件,只要单元的计数不满足最小支持度,BUC就节省大量处理时间。

BUC的主要贡献是分担划分开销的思想

Star-Cubing:使用动态星树结构计算冰山立方体

它集成自顶向下和自低向下立方体计算,并利用多维聚集和类Apriori剪枝,它在一个称为星树的数据结构上操作,对该数据结构进行无损数据压缩,从而降低计算时间和内存需求量。

Star-Cubing算法:在全局计算次序上,它使用自底向上模式,然而它下面有一个基于自顶向下模式的子层:利用共享维的概念,这种集成允许算法在多个维上聚集,而仍然划分父母分组并裁剪不满足冰山条件的子女分组。

我们称公共维为特定子树的共享维,共享维的引入有利于共享计算。

如果冰山立方体度量是反单调的,则共享维允许类Apriori剪枝,也就是说,如果共享维上的聚集值不满足冰山条件,则沿该共享维向下的所有单元也不可能满足冰山条件

方体树:树的每一层代表一个维,而每个结点代表一个属性值。每个结点有4个字段:属性值、聚集值、指向第一个子女的指针和指向第一个兄妹的指针。方体中的元组逐个插入树中,一条从根到树叶结点的路径代表一个元组。

如果单个维在属性值p上的聚集不满足冰山条件,则在冰山立方体计算中识别这样的结点没有意义。这样的结点p可以用星号替代,使方体树可以进一步压缩。如果单个维在p上的聚集不满足冰山条件,则称属性A中的结点p是星结点;否则,称p为非星结点。使用星结点压缩的方体树称为星树

外壳片段方法遵循这种半联机计算策略。它涉及两个算法:一个计算外壳片段立方体,而另一个用立方体片段处理查询。其基本思想如下:给定一个高维数据集,把维划分成互不相交的维片段,把每个片段转换成倒排索引表示,然后构造立方体外壳片段,并保持与立方体单元相关联的倒排索引。使用预计算的立方体外壳片段,可以联机动态地组装和计算所需要的数据立方体的方体单元。这可以通过倒排索引上的集合交操作有效地完成。

使用探索立方体计数处理高级查询:

抽样立方体:样本数据上基于OLAP的挖掘
是一种存储样本数据和它们多维聚集的数据立方体结构。它计算置信区间,作为多维查询的质量度量。给定一个样本数据关系R(即基本方体),抽样立方体CR通常计算样本均值、样本标准差和其他针对任务的度量。

置信区间是一个给定的高概率涵盖真正总体值估计的值域。
影响置信区间的主要因素:样本数据的方差和样本大小
方法1:方法内查询扩展
方法2:方体间查询扩展

排序立方体:top-k查询的有效计算
Top-k查询根据用户指定的优选条件,只返回最好的k个结果作为查询的回答,而不是返回大量不加区分的结果。

预测立方体:立方体空间的预测挖掘
预测立方体的每个单元值都是通过对建立在该单元数据子集上的预测模型求值计算的,因此代表对该数据子集行为i的预测

多特征立方体:
可以计算更复杂的查询,其回答依赖于变化粒度层上多个聚集的分组。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qtayu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值