单变量数据衍生

穒軹

已于 2022-06-01 13:14:55 修改

阅读量254

点赞数

于 2022-05-27 20:33:14 首次发布

本文链接：https://blog.csdn.net/worther/article/details/124951750

版权

文章目录

1.连续变量重编码
2.分类变量预处理
3.高阶多项式特征衍生

1.连续变量重编码

连续变量所用数据格式
在这里插入图片描述

1.1标准化

a.0-1标准化

import pandas as pd
pd.set_option('display.max_columns',None)#显示所有列
data=pd.read_csv(r"C:\Users\15187\Desktop\games1.csv")
input=data["gameDuration"]

自编函数

def max_min(input):
    output=(input-input.min())/(input.max()-input.min())
    return output
output=max_min(input)

sklearn_函数实现

from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)
output = min_max_scaler.fit_transform(input.values.reshape(-1,1))

先生成实例，再通过实例调用函数，(feature_range=(0, 1), copy=True)内部参数是默认值
feature_range=(0, 1)，转换的数组范围在（0,1）范围，可以修改
copy默认为True,表示对原数据组拷贝操作，这样变换后元数组不变，False表示变换操作后，原数组也跟随变化.
fit_transform中输入形式必须是arry格式.values.reshape(-1,1)就是转换为arry格式

#min_max_scaler = preprocessing.MinMaxScaler(feature_range = (1,3),copy = False)#范围改为1~3，对原数组操作

b.z-score标准化

z标准化，z标准化就是均值为0，标准差为1
自编函数

def z_score(input):
    output=(input-input.mean())/input.std()
    return output
output=z_score(input)

sklearn实现

from sklearn import preprocessing
output = preprocessing.scale(input.values.reshape(-1,

最低0.47元/天解锁文章

穒軹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
单变量数据衍生

1.连续变量重编码连续变量所用数据格式1.1标准化a.0-1标准化import pandas as pdpd.set_option('display.max_columns',None)#显示所有列data=pd.read_csv(r"C:\Users\15187\Desktop\games1.csv")input=data["gameDuration"]自编函数def max_min(input): output=(input-input.min())/(input.max(
复制链接

扫一扫