数据仓库与数据挖掘
数据仓库特点:
面向主题
集成
相对稳定的(非易失的)
反映历史变化(随着时间变化)
数据挖掘:
方法:
决策树
神经网络
遗传算法
关联规则挖掘算法
分类:
关联分析:挖掘出隐藏在数据间的相互关系
序列模式分析:侧重点是分析数据间的前后关系(因果关系)
分类分析:为每一个记录赋予标记并按标记分类
聚类分析:分类分析的逆过程
反规范化
技术手段:
增加派生性冗余列
增加冗余列
重新组表
分割表
大数据
数据量(Volume)
速度(Velocity)
多样性(Variety)
值(Value)
大数据处理系统应具有以下重要特征:
高度可扩展性
高性能
高度容错
支持异构环境
较短的分析延迟
易用且开放的接口
较低成本
向下兼容性