利用sklearn处理文本和分类属性

最新推荐文章于 2021-12-02 23:28:55 发布

evil心安

最新推荐文章于 2021-12-02 23:28:55 发布

阅读量489

点赞数 1

分类专栏：机器学习相关库文章标签： python 机器学习 numpy sklearn 文本处理

本文链接：https://blog.csdn.net/weixin_46013817/article/details/112979171

版权

机器学习相关库专栏收录该内容

9 篇文章 2 订阅

订阅专栏

大部分的机器学习算法都易于跟数字打交道，所以我们将这些文本标签转换为数字。

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
housing_cat = housing["ocean_proximity"]
# housing_cat是一个二维数组，一列存储行数，一列存储对应的ocean_proximity
housing_cat_encoded = encoder.fit_transform(housing_cat)
print(housing_cat_encoded)
# [0 0 4 ... 1 0 3]

现在：我们可以将这套数值用于任意机器学习算法。可以使用classes_属性来查看这个编码器已学习的映射

print(encoder.classes_)
# ['<1H OCEAN' 'INLAND' 'ISLAND' 'NEAR BAY' 'NEAR OCEAN']

这种代表方式产生的一个问题是，机器学习算法会以为两个相近的数字比两个离得较远的数字更为相似一些。为了解决这个问题，我们需要引进独热编码
Scikit-Learn提供了一个OneHotEncoder编码器，可以将整数分类值转换为独热向量。
值得注意的是，fit_transform()需要一个二维数组，但是housing_cat_encoded是一个一维数组，所以我们需要将它重塑：

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(-1, 1))
print(housing_cat_1hot)

这里的输出是一个Scipy稀疏矩阵，而不是一个Numpy数组。当你有成千上万种类别的分类属性时，这个函数会非常有用。因为当使用独热编码后，我们会得到一个几千列的矩阵，并且全是0，每行仅有一个1。占用大量的内存存储0是一件非常浪费的事情，因此稀疏矩阵仅存储非零元素的位置。而你依旧可以像使用一个普通的二维数组来使用它。
如果要转换维Numpy数组，只需要调用toarray()方法即可
housing_cat_1hot.toarray()
使用LabelBinarizer类可以一次性完成两个转换（从文本类别转换为整数类别，再从整数类别转换为独热向量）

from sklearn.preprocessing import LabelBinarizer
encoder = LabelBinarizer()
housing_cat_1hot = encoder.fit_transform(housing_cat)
print(housing_cat_1hot)

注意，这时默认返回的是一个密集的Numpy数组。通过发送spares_output=True给LabelBinarizer构造函数，可以得到稀疏矩阵。
encoder = LabelBinarizer(sparse_output=True)

evil心安

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
利用sklearn处理文本和分类属性

大部分的机器学习算法都易于跟数字打交道，所以我们将这些文本标签转换为数字。from sklearn.preprocessing import LabelEncoderencoder = LabelEncoder()housing_cat = housing["ocean_proximity"]# housing_cat是一个二维数组，一列存储行数，一列存储对应的ocean_proximityhousing_cat_encoded = encoder.fit_transform(housing_ca
复制链接

扫一扫