知识点:
字典的简单介绍
标签编码
连续特征的处理:归一化和标准化
作业:对心脏病数据集的特征用上述知识完成,一次性用所有的处理方式完成预处理,尝试手动完成,多敲几遍代码。
#导入数据并查看
import pandas as pd
data = pd.read_csv(r'heart.csv')
data
#对有顺序的离散特征进行标签编码,但因为该数据集所有离散特征均已进行编码,所以只好原地踏步一下
data["cp"].value_counts()
mapping = {
"0": 0,
"1": 1,
"2": 2,
"3": 3
}
data["cp"].head()
# 以age为例,借助sklearn库进行归一化处理
from sklearn.preprocessing import StandardScaler, MinMaxScaler
data = pd.read_csv("heart.csv")# 重新读取数据
# 归一化处理
min_max_scaler = MinMaxScaler()
data['age'] = min_max_scaler.fit_transform(data[['age']])
data['age'].head()
# 标准化处理
scaler = StandardScaler()
data['age'] = scaler.fit_transform(data[['age']])
data['age'].head()
数据集
对cp进行标签编码结果
age归一化结果
age标准化结果