Data Mining所使用的技术如CART、CHAID或模糊计算等等理论方法,都是由统计学者根据统计理论所发展衍生,有相当大的比重是由高等统计学中的多变量分析所支撑。
Data Mining | Statistics |
处理大量数据 1,000,000,000 rows, 3,000 columns | 处理大量数据 10,000 rows, 20 columns |
Happenstance data | Systematically gathered data |
Why sample? We have a large parallel computer | Sample -- we even get error estimates!! |
PowerPoint shows | Overhead foils |
Reasonable Price for Software: $2,000,000 | Reasonable Price for Software: $79.99 |
Nice place for a meeting: Maui in January | Nice place for a meeting: Dallas in August |
企业末端者使用 | 统计学家检测用 |
无须太专业的统计背景 | 需要专业的统计背景 |
从大型数据库抓取所需数据并使用专属计算机分析软件,更符合企业需求 |
|
步骤:
1. 厘清目标与理解数据;
2. 获取相关技术与知识;
3. 整合与查核数据;
4. 去除错误或不一致及不完整的数据;
5. 由数据选取样本先行试验;
6. 研发模式(model)与型样(pattern);
7. 实际Data Mining的分析工作;
8. 测试与检核;
9. 找出假设并提出解释;
10.持续应用于企业流程中。
由上述步骤可看出, Data Mining 牵涉了大量的准备工作与规划过程,事实上许多专家皆认为整套 Data Mining 的进行有 80% 的时间精力是花费在数据前置作业阶段,其中包含数据的净化与格式转换甚或表格的连结。由此可知 Data Mining 只是信息挖掘过程中的一个步骤而已,在进行此步骤前还有许多的工作要先完成。