目录
一、启用
二、数据挖掘
- 大型数据远在天边,近在眼前
- 数据的迅速增加与数据分析方法的滞后之间的矛盾→数据挖掘应运而生
- 数据挖掘是从大量数据中提取出隐藏在数据之后的有用的信息,揭示潜藏在大型数据里的事物规律
三、数据挖掘的应用
- 天文学:SKICAT(Sky Image Cataloging and Analysis Tool),自动分类和测量到的天体
- 金融投资:对大量即时数据进行自动分析和学习提高
- 市场营销:通过数据分析了解客户购物行为的一些特征
四、数据挖掘实例
市场营销:投放宣传品的数据挖掘
- 界定商业问题
- 数据转为信息
- 基于信息的商业行为
- 结果评估
五、数据挖掘 DM-sample
(一)数据挖掘中的数据角色:
- raw:原始数据
- training:用于建模的训练数据
- validation:调整模型估计量值的数据
- test:检验模型的数据
- score:得分数据,记录分析结果
(二)抽样带来的2个问题
- 多大比例的样本能真实反应整体
- 样本的质量问题如何决定样本的有效性。高质量的样本应该是整体的一个精确微缩,它保存了单个变量的分布和变量之间的关系
(三)抽样的方法决定前述2个问题的解决
- 简单随机抽样
- 分层随机抽样
- 过度抽样 oversampling:原始数据少,放大样本
(四)变量属性
- target--目标变量
- input--可以进行预测的变量
- reject--不可以进行预测的变量
- id--标识变量
(五)数据类型
- unary--1个值变量
- binary--2个值变量
- nominal--多于2个值的名义变量
- ordinal--多于2个不多于10个值的数值变量
- interval--多于10个值的数值变量
六、数据挖掘DM-explore
1. DM 视目标事件的值为排序第一的值,调整排序
2. 考虑成本和利润:
- 错误的投放:成本¥10
- 正确的投放:利润¥90-¥10=¥80
3. target profile:创建决策矩阵
- 利润矩阵
- 成本
- 先验概率
七、数据挖掘DM-modify
1. 数据集角色分块
数据分割:训练、校验、测试
2. 缺失值处理:
- replacement填充interval类型变量填充为均值
- binary,nominal,ordinal类型变量填充为出现概率最大的值
八、数据挖掘DM-model
1. 回归模型:建立单个或多个分析变量与一个目标变量之间的关系(一般线性回归和logistic回归)
2. 聚类模型:对多维数据进行降维处理
九、数据挖掘DM-assess
模型的评估:lift chart 给每个客户一个评分,说明其购买的可能性
目标客户得分