preprocessing/ feature_selection

最新推荐文章于 2024-10-10 23:18:01 发布

刘靖航

最新推荐文章于 2024-10-10 23:18:01 发布

阅读量212

点赞数

分类专栏：机器学习笔记文章标签：机器学习 big data 深度学习

本文链接：https://blog.csdn.net/weixin_45298468/article/details/120577975

版权

本文介绍了数据挖掘的流程，重点关注数据预处理的各个环节，包括无量纲化、标准化、填补缺失值、编码处理以及连续性特征的二值化与分段。在特征选择部分，详细讲解了过滤法、相关性过滤、嵌入法和包装法等策略，以提升模型性能。

摘要由CSDN通过智能技术生成

1.数据挖掘的五大流程

获取数据
数据预处理	数据类型不同；数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不易，有重复，数据量过大或过小
特征工程	特征过多过小，特征之间的相关性，特征与标签之间相关性，目的使降低运算成本，提升模型上限
建模	测试模型并预测结果
上线	验证模型效果

2.数据预处理

2.1数据的无量纲化

中心化	平移到某一区间，减法
缩放处理	缩放到某一区间，取对数或除法

2.1.1

processing.MinMaxScaler将数据缩放到【0，1】

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
result = scaler.fit_transform(data)

result = scaler.reverse_transform(result)

同样可以使用numpy来实现这一过程

import numpy as np

x = np.array([[1,4],[-1,2],[4,2],[5,3]])

x_nor = (x-x.min(axis=0))/(x.max(axis=0)-x.min(axis=0))
x_nor

x_returned = x_nor*(x.max(axis=0)-x.min(axis=0))+x.min(axis=0)
x_returned

2.1.2

preprocessing.StandardScaler 数据的标准化即正态分布