特征内容为数字时,采用以下代码
df_Species = df_iris.iloc[:, -1:]
iris_oh = pd.DataFrame(OneHotEncoder(handle_unknown='ignore').fit(df_Species).transform(df_Species).toarray())
print(iris_oh)
输出结果
数据为具体内容时,可直接采用get_dummies函数,该函数可直接生成列名,更加便捷
data = pd.DataFrame([['green', 'M', 10.1, 'class1'], ['red', 'L', 13.5, 'class2'], ['blue', 'XL', 15.3, 'class1']])
data.columns = ['color', 'size', 'prize', 'class label']
size_d = {"M": 1, "L": 2, "XL": 3}
data["size"] = data["size"].map(size_d) #使用map即可取消对应列的独热编码
lable = {"class1": 1, "class2": 2}
data["class label"] = data["class label"].map(lable)
print(data)
df = pd.get_dummies(data)
print(df.head())
输出结果
如有不足之处,欢迎大佬指正