数据预处理

数据挖掘的五大流程
1.获取数据
2.数据预处理
从数据中检测,纠正,删除损坏,不准确,不适用的数据,可能的问题有:
数据类型不同,比如有文字,有的是数字,有的含有时间序列,有的质量不行,
有噪声,有异常,有缺失,有重复,等等。
目的: 让数据适应模型,匹配模型的需求。
3.特征工程
将原始数据转换成更能代表预测模型的潜在问题的特征的过程。可以通过挑选最相关的特征,提取特征
以及创造特征,(通常用降维算法实现。)
可能面对的问题: 特征之间有相关性,特征与标签无关,特征太多,太少,或者无法表现出应有的数据现象。
目的:降低计算成本,提升模型上限。
4.建模,测试模型并预测结果.
5.上线,验证模型效果。![在这里插入图片描述](https://img-

数据的无量纲化: 数据标准化,规范化。
方法: 中心化。缩放处理。
数据归一化:(normalization 或者 min_max_Scaling)缺点: 对异常值过于敏感,所以一般选择所方时,选择标准化。
在这里插入图片描述

数据标准化:(standardization),数据按照均值中心化后,再按照标准差缩放,就会服从均值为0,方差为1的正太分布,这就叫做数据标准化。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值