Data Mining与统计分析有何不同与步骤

最新推荐文章于 2024-09-20 09:51:34 发布

奔跑的蜗牛007

最新推荐文章于 2024-09-20 09:51:34 发布

阅读量663

点赞数

Data miner and Data WareHouse 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Data Mining所使用的技术如CART、CHAID或模糊计算等等理论方法，都是由统计学者根据统计理论所发展衍生，有相当大的比重是由高等统计学中的多变量分析所支撑。

Data Mining	Statistics
处理大量数据 1,000,000,000 rows, 3,000 columns	处理大量数据 10,000 rows, 20 columns
Happenstance data	Systematically gathered data
Why sample? We have a large parallel computer	Sample -- we even get error estimates!!
PowerPoint shows	Overhead foils
Reasonable Price for Software: $2,000,000	Reasonable Price for Software: $79.99
Nice place for a meeting: Maui in January	Nice place for a meeting: Dallas in August
企业末端者使用	统计学家检测用
无须太专业的统计背景	需要专业的统计背景
从大型数据库抓取所需数据并使用专属计算机分析软件，更符合企业需求

步骤:

1. 厘清目标与理解数据；

2. 获取相关技术与知识；

3. 整合与查核数据；

4. 去除错误或不一致及不完整的数据；

5. 由数据选取样本先行试验；

6. 研发模式（model）与型样（pattern）；

7. 实际Data Mining的分析工作；

8. 测试与检核；

9. 找出假设并提出解释；

10.持续应用于企业流程中。

由上述步骤可看出， Data Mining 牵涉了大量的准备工作与规划过程，事实上许多专家皆认为整套 Data Mining 的进行有 80% 的时间精力是花费在数据前置作业阶段，其中包含数据的净化与格式转换甚或表格的连结。由此可知 Data Mining 只是信息挖掘过程中的一个步骤而已，在进行此步骤前还有许多的工作要先完成。