数据挖掘流程图
一、定义目标:首先将问题转化为数据挖掘目标
二、准备数据:数据收集、数据质量报告、数据预处理
其中,数据预处理可以分为下面几种方式:
- 数据清洗:缺失值的处理和噪声过滤
1.1 缺失值处理:删除法(对于一些不太重要的数据),插补法(重要的数据,可以用(1)均值插 补法,(2)回归插补法,(3)极大似然估计)
1.2 噪声过滤:回归法,均值平滑法,离群点分析,小波去噪 - 数据的集成:内接,外接,可以通过matlab里面的join函数来实现
- 数据归约:属性选择,样本选择
- 数据变换:标准化、离散化、语义转化
三、数据探索:变量衍生、数据统计、数据可视化、样本选择、数据降维
四、建立模型:选择模型技术、产生检验设计、建立模型、评价模型
五、模型训练
matlab常用分类函数
kmeans()---------k-均值聚类
treefit()------------决策树回归或分类
svmclassify()----支持向量机分类
knnclassify()-----k-近邻分类
crossvalind()-----交叉验证试验
六、常用函数
数据探索
分布情况:hist(data,bins)
分布中心分析:geomean:几何平均数
harmmean:调和平均数
trimmean:截尾均值
数据伸展分析
min,max,var,moment,quantile
形状分析
skewness
关联分析
scatter,gname,plotmatrix
分组分析
gscatter(data.Height,data.weight,data.sex)
boxplot(data.Height,data.Ethnicity)
假设检验
ttest,ttest2,vartest,vartest2,ztest(U检验)
回归
fitlm(线形),非线性:需要先定义类型,再用fitnlm,多元线性逐步回归:LinearModel