第13讲 SAS 的 enterprise miner 数据挖掘模块

最新推荐文章于 2022-11-01 11:36:34 发布

数理统计科代表

最新推荐文章于 2022-11-01 11:36:34 发布

阅读量1.8k

点赞数

分类专栏： SAS 人大经济论坛培训班

本文链接：https://blog.csdn.net/weixin_46206572/article/details/118213353

版权

SAS 人大经济论坛培训班专栏收录该内容

15 篇文章 42 订阅

订阅专栏

一、启用

二、数据挖掘

大型数据远在天边，近在眼前
数据的迅速增加与数据分析方法的滞后之间的矛盾→数据挖掘应运而生
数据挖掘是从大量数据中提取出隐藏在数据之后的有用的信息，揭示潜藏在大型数据里的事物规律

三、数据挖掘的应用

天文学：SKICAT(Sky Image Cataloging and Analysis Tool)，自动分类和测量到的天体
金融投资：对大量即时数据进行自动分析和学习提高
市场营销：通过数据分析了解客户购物行为的一些特征

四、数据挖掘实例

市场营销：投放宣传品的数据挖掘

界定商业问题
数据转为信息
基于信息的商业行为
结果评估

五、数据挖掘 DM-sample

（一）数据挖掘中的数据角色：

raw：原始数据
training：用于建模的训练数据
validation：调整模型估计量值的数据
test：检验模型的数据
score：得分数据，记录分析结果

（二）抽样带来的2个问题

多大比例的样本能真实反应整体
样本的质量问题如何决定样本的有效性。高质量的样本应该是整体的一个精确微缩，它保存了单个变量的分布和变量之间的关系

（三）抽样的方法决定前述2个问题的解决

简单随机抽样
分层随机抽样
过度抽样 oversampling：原始数据少，放大样本

（四）变量属性

target--目标变量
input--可以进行预测的变量
reject--不可以进行预测的变量
id--标识变量

（五）数据类型

unary--1个值变量
binary--2个值变量
nominal--多于2个值的名义变量
ordinal--多于2个不多于10个值的数值变量
interval--多于10个值的数值变量

六、数据挖掘DM-explore

1. DM 视目标事件的值为排序第一的值，调整排序

2. 考虑成本和利润：

错误的投放：成本￥10
正确的投放：利润￥90-￥10=￥80

3. target profile：创建决策矩阵

利润矩阵
成本
先验概率

七、数据挖掘DM-modify

1. 数据集角色分块

数据分割：训练、校验、测试

2. 缺失值处理：

replacement填充interval类型变量填充为均值
binary，nominal，ordinal类型变量填充为出现概率最大的值

八、数据挖掘DM-model

1. 回归模型：建立单个或多个分析变量与一个目标变量之间的关系（一般线性回归和logistic回归）

2. 聚类模型：对多维数据进行降维处理

九、数据挖掘DM-assess

模型的评估：lift chart 给每个客户一个评分，说明其购买的可能性

目标客户得分

数理统计科代表

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
第13讲 SAS 的 enterprise miner 数据挖掘模块

目录一、启用二、数据挖掘三、数据挖掘的应用四、数据挖掘实例五、数据挖掘 DM-sample（一）数据挖掘中的数据角色：（二）抽样带来的2个问题（三）抽样的方法决定前述2个问题的解决（四）变量属性（五）数据类型六、数据挖掘DM-explore七、数据挖掘DM-modify八、数据挖掘DM-model九、数据挖掘DM-assess一、启用二、数据挖掘大型数据远在天边，近在眼前数据的迅速增加与数据分析方法的滞后之间的矛盾→数据挖掘
复制链接

扫一扫