数据清洗与特征工程
查找空值
处理空值的办法 1.删除空值所在的行 2.用给定的值去填充
查找重复值
删除重复值
对数值型数据 连续数据进行离散化处理
文本类型处理
#方法三: 使用sklearn.preprocessing的LabelEncoder
from sklearn.preprocessing import LabelEncoder
for feat in [‘Cabin’, ‘Ticket’]:#for函数
lbl = LabelEncoder()
label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
df[feat + “_labelEncode”] = df[feat].map(label_dict)
#df[feat + “_labelEncode”] = lbl.fit_transform(df[feat].astype(str))
df.head()