数据挖掘流程与相关工具

一.流程
1.定义挖掘目标,也就是要弄清业务需求
2.数据采集
衡量数据质量的标准如下
[1]资料完整无缺,各类指标项齐全
[2]数据准确无误,反映的都是正常状态下的水平
3.数据分析
对抽样数据进行异常值分析,缺失值分析,相关分析和周期分析
4.数据预处理
主要包括特征筛选,异常值处理,缺失值处理,数据归一化,数据标准化,主成分分析,数据变量转换等等
5.数据处理好之后抽样进行模型训练
[1]随机抽样
[2]等距抽样
[3]分层抽样 现将样本分成若干层次,每个层次被抽取的概率可以设置不一样
[4]分类抽样 按照某个属性的类别进行抽样
6.挖掘建模
考虑这个建模属于哪类问题(回归,分类,聚类,关联规则,时序模式或智能推荐),选择具体的算法进行建模
7.模型评价

二.数据挖掘常用的工具
1.SAS
2.SPSS
3,python

三.具体的数据分析阶段
1.缺失值分析
分析每个属性缺失的比例
2.异常值分析
[1]简单的统计分析
直接看最大值和最小值是否合理
[2]3q原则
如果数据服从正态分布,那么异常值被定义为与平均值的偏差超过3倍的标准差的值
如果不服从正态分布的话,可以通过定义远离平均值的多少倍
[3]箱型图
定义小于下四分位数-1.5倍的四分位数间距或大于上四分位数+1.5被四分位数间距的值为异常值
[4]一致性分析
当数据的来源为多个渠道时,需要注意数据的一致性
3.数据特征分析
[1]分布分析
A.对于定量(连续)的数据,可以通过绘制频率直方图来发现特大或特小的可疑值
1)求极差
2)决定组距和组数
3)决定分点
4)列出频率分布表
5)绘制频率分布直方图
B.对于定性分类的数据,可以通过饼图或条形图来直观显示分布情况
根据变量的分类类型来分组
4.对比分析
适用于指标之间的纵横向比较,时间周期上的比较
5.统计量分析
[1]集中趋势
连续数据:均值,中位数
离散数据:众数
[2]离散趋势
极差,标准差,
变异系数(主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离中趋势)
四分位数间距(越大说明数据的变异程度越大)
6.周期性分析
探索某个变量是否随着时间而呈现某种周期变化趋势
7.相关性分析
分析连续变量线性相关程度的强弱
[1]两个变量 绘制散点图
[2]同时考虑多个变量之间的相关性时,利用散点图矩阵同时绘制各个变量间的散点图
[3]计算相关系数
pearson 相关系数 分析两个服从正态分布连续性变量之间的关系,|r|在(0,1)之间,越大越相关
秩相关系数 不服从正态分布,分类或等级变量之间的相关性指标
[4]判定系数
是相关系数的平方,衡量回归方程对y的解释程度,越接近1,表示x和y的相关性越强

四.数据预处理
1.数据关联
将多个数据源存放到一个一致的数据仓库中
2.数据去重
同样的记录或属性多次出现
3.数据清洗
主要是删除原始数据中的无关数据,重复数据,平滑噪声数据,筛选与挖掘主题无关的数据,处理缺失值,异常值等
[1]缺失值处理
使用均值/中位数/众数/最近的样本的属性值/固定值
使用回归方法,根据其他属性和变量之间建立回归关系
利用已知点建立合适的插值函数(python里面提供了拉格朗日插值法)
[2]异常值处理
直接删除含有异常值的记录
视为缺失值,按照缺失值的方法处理
平均值修正
不处理
3.数据变换
[1]简单函数变换
常用来将不具有正态分布的数据转换成具有正态分布的数据
在序列分析中,有时候简单的对数变换或差分变换可以将非平稳序列转换为平稳序列
[2]规范化
消除指标之间的量纲和取值范围差异的影响,将数据缩放到一个比较小的区间
A.最小最大规范化
B.零均值规范化
[3]连续属性离散化
A.等宽法 将属性的值域分成具有相同宽度的区间
B.等频法 将相同数量的记录放进每个区间
C.聚类
4.属性构造
利用已有的属性构造出新的属性
5.特征选择
[1]PCA
[2]决策树
[3]scikit-learn里面的特征选择方法
A.比较简单的是通过F检验来给出各个特征的F值和P值,筛选出F值大,p值小的特征
B.递归特征消除
反复的构建回归模型等来选出最优的特征
C.稳定性选择方法
在不同的数据子集和特征子集上运行算法,最终对选出来的特征结果进行汇总

五.模型算法
1.关联规则
[1]Apriori
核心思想是通过连接产生候选项与其支持度,然后通过剪枝生成频繁项集
[2]FP-Tree

六.数据来源
1.数据库
[1]关系数据库
[2]分布式数据库
2.爬取
[1]非技术
[2]技术层
3.购买
[1]技术网站
[2]交易所

七.数据存储
将获取到的数据进行存储
1.文档
2.数据库
3.服务器
Hadoop的分布式文件系统

八.ETL工程
数据抽取,转换,加载

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值