数据挖掘流程

1.对数据的初步理解

1.几行几列,有多少样本,多少特征

2.查看数据是否完整

3.查看数据类型(模型需要用的是数值型数据) 

1.2对目标的了解以及对数据的初步处理

1.理解本次挖掘的目标

2.缺失值:是否可以直接删除缺失数据,如果不能,找合适的方法去填充。

3.异常值:查看数据是否异常 

1.3数据预处理

1.归一化

2.标准化

3.字符型数据转化成数值型数据

.......

1.4特征工程

1.相关性分析,选择一些与目标强相关性的特征

2.递归法

...

1.5建立模型

一般建立2-3个模型进行比较

分类模型:KNN,贝叶斯分类,决策树,随机森林,svm,逻辑回归

回归模型:简单线性回归,多重线性回归,一元非线性回归

聚类模型:k-means..... ```

1.6模型优化 

模型选定后,对于模型性能进一步优化 

模型的参数优化:网格搜索,随机搜索,选择最优的模型参数

k-折交叉验证:避免过分拟合

模型评估: ``` 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值