preprocessing/ feature_selection

本文介绍了数据挖掘的流程,重点关注数据预处理的各个环节,包括无量纲化、标准化、填补缺失值、编码处理以及连续性特征的二值化与分段。在特征选择部分,详细讲解了过滤法、相关性过滤、嵌入法和包装法等策略,以提升模型性能。
摘要由CSDN通过智能技术生成

1.数据挖掘的五大流程

        

获取数据
数据预处理 数据类型不同;数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不易,有重复,数据量过大或过小
特征工程 特征过多过小,特征之间的相关性,特征与标签之间相关性,目的使降低运算成本,提升模型上限
建模 测试模型并预测结果
上线 验证模型效果

2.数据预处理

        2.1数据的无量纲化

中心化 平移到某一区间,减法
缩放处理 缩放到某一区间,取对数或除法

               2.1.1

                                 processing.MinMaxScaler将数据缩放到【0,1】  

                                       

                

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
result = scaler.fit_transform(data)

result = scaler.reverse_transform(result)

                 同样可以使用numpy来实现这一过程

import numpy as np

x = np.array([[1,4],[-1,2],[4,2],[5,3]])

x_nor = (x-x.min(axis=0))/(x.max(axis=0)-x.min(axis=0))
x_nor

x_returned = x_nor*(x.max(axis=0)-x.min(axis=0))+x.min(axis=0)
x_returned

                2.1.2

                                preprocessing.StandardScaler 数据的标准化即正态分布

            

from sklearn,p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值