2-3 常用的数据转换方法
数据标准化是将数据按比例缩放到一个特定区间,其主要包括数据同趋化处理和无量纲化处理两个方面。数据标准化的方法有很多种,常用的有最小-最大标准化和z-score标准化。
请用户对本题中的变量(不包括变量ID)进行z-score标准化,标准化公式如下:
数据说明
本题数据来自KEEL,数据集一共包含1列ID,4列特征变量,共100个样本点。
预设变量
本题使用的数据变量名、含义及其类型如下:
变量名 | 含义 | 类型 |
---|---|---|
data | 数据集 | DataFrame |
答题要求
对data中的列(不包括变量ID)进行z-score标准化,类型为DataFrame对象。
正误判定变量data
方法一:
import pandas as pd
data['CT']=data['CT'].map(lambda x: (x-data['CT'].mean())/data['CT'].std())
data['FA']=data['FA'].map(lambda x: (x-data['FA'].mean())/data['FA'].std())
data['WT']=data['WT'].map(lambda x: (x-data['WT'].mean())/data['WT'].std())
data['SP']=data['SP'].map(lambda x: (x-data['SP'].mean())/data['SP'].std())
data=pd.DataFrame(data)
方法二:
import pandas as pd
continuous_columns = ['CT','FA','WT','SP']
data[continuous_columns] = data[continuous_columns].apply(lambda x : (x-x.mean())/x.std())
print(data.head())