利用sklearn处理文本和分类属性

大部分的机器学习算法都易于跟数字打交道,所以我们将这些文本标签转换为数字。

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
housing_cat = housing["ocean_proximity"]
# housing_cat是一个二维数组,一列存储行数,一列存储对应的ocean_proximity
housing_cat_encoded = encoder.fit_transform(housing_cat)
print(housing_cat_encoded)
# [0 0 4 ... 1 0 3]

现在:我们可以将这套数值用于任意机器学习算法。可以使用classes_属性来查看这个编码器已学习的映射

print(encoder.classes_)
# ['<1H OCEAN' 'INLAND' 'ISLAND' 'NEAR BAY' 'NEAR OCEAN']

这种代表方式产生的一个问题是,机器学习算法会以为两个相近的数字比两个离得较远的数字更为相似一些。为了解决这个问题,我们需要引进独热编码
Scikit-Learn提供了一个OneHotEncoder编码器,可以将整数分类值转换为独热向量。
值得注意的是,fit_transform()需要一个二维数组,但是housing_cat_encoded是一个一维数组,所以我们需要将它重塑:

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(-1, 1))
print(housing_cat_1hot)

这里的输出是一个Scipy稀疏矩阵,而不是一个Numpy数组。当你有成千上万种类别的分类属性时,这个函数会非常有用。因为当使用独热编码后,我们会得到一个几千列的矩阵,并且全是0,每行仅有一个1。占用大量的内存存储0是一件非常浪费的事情,因此稀疏矩阵仅存储非零元素的位置。而你依旧可以像使用一个普通的二维数组来使用它。
如果要转换维Numpy数组,只需要调用toarray()方法即可
housing_cat_1hot.toarray()
使用LabelBinarizer类可以一次性完成两个转换(从文本类别转换为整数类别,再从整数类别转换为独热向量)

from sklearn.preprocessing import LabelBinarizer
encoder = LabelBinarizer()
housing_cat_1hot = encoder.fit_transform(housing_cat)
print(housing_cat_1hot)

注意,这时默认返回的是一个密集的Numpy数组。通过发送spares_output=True给LabelBinarizer构造函数,可以得到稀疏矩阵。
encoder = LabelBinarizer(sparse_output=True)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

evil心安

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值