Data Mining与统计分析有何不同与步骤

Data Mining所使用的技术如CARTCHAID或模糊计算等等理论方法,都是由统计学者根据统计理论所发展衍生,有相当大的比重是由高等统计学中的多变量分析所支撑。

 

Data Mining

Statistics

处理大量数据

1,000,000,000 rows, 3,000 columns

处理大量数据

10,000 rows, 20 columns

Happenstance data

Systematically gathered data

Why sample? We have a large parallel computer

Sample -- we even get error estimates!!

PowerPoint shows

Overhead foils

Reasonable Price for Software: $2,000,000

Reasonable Price for Software: $79.99

Nice place for a meeting: Maui in January

Nice place for a meeting: Dallas in August

企业末端者使用

统计学家检测用

无须太专业的统计背景

需要专业的统计背景

从大型数据库抓取所需数据并使用专属计算机分析软件,更符合企业需求

 

 
步骤:

1. 厘清目标与理解数据;

2. 获取相关技术与知识;

3. 整合与查核数据;

4. 去除错误或不一致及不完整的数据;

5. 由数据选取样本先行试验;

6. 研发模式(model)与型样(pattern);

7. 实际Data Mining的分析工作;

8. 测试与检核;

9. 找出假设并提出解释;

10.持续应用于企业流程中。

 

由上述步骤可看出, Data Mining 牵涉了大量的准备工作与规划过程,事实上许多专家皆认为整套 Data Mining 的进行有 80% 的时间精力是花费在数据前置作业阶段,其中包含数据的净化与格式转换甚或表格的连结。由此可知 Data Mining 只是信息挖掘过程中的一个步骤而已,在进行此步骤前还有许多的工作要先完成。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值