【Ai】scikit-learn机器学习对数据的要求以及特征编码 {标签编码、独热编码、中文编码}

顽石九变

于 2024-07-31 15:54:05 发布

阅读量723

点赞数 26

分类专栏：机器学习与人工智能文章标签： python 机器学习 scikit-learn

本文链接：https://blog.csdn.net/wlddhj/article/details/140824924

版权

机器学习与人工智能专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、机器学习对训练数据的要求

对于训练的原始数据，通常有以下一些基本要求，以确保机器学习模型的有效性和准确性：

1. 数据质量

准确性：数据应准确无误，避免错误或误导性的信息。
完整性：数据应尽可能完整，缺失值应被适当处理（如填充、删除或插值）。
一致性：数据格式和表示方式应保持一致，避免混乱或歧义。

2. 数据相关性

与目标任务相关：数据应与机器学习模型的目标任务紧密相关，确保模型能够学习到有用的特征。
特征选择：从原始数据中选取与目标任务最相关的特征，有助于提高模型的性能和效率。

3. 数据量

足够的数据量：通常，更多的数据意味着更好的模型泛化能力。然而，具体需要多少数据取决于任务的复杂性和数据的多样性。
数据多样性：数据应覆盖目标任务的多个方面和场景，以确保模型能够适应不同的输入情况。

4. 数据格式

适合机器学习算法：数据格式应符合所选机器学习算法的要求。例如，大多数算法要求输入数据为数值型，因此需要对非数值型数据进行编码或转换。
标准化或归一化：对于数值型数据，通常需要进行标准化或归一化处理，以确保不同特征在数值上具有可比性，并提高模型的收敛速度和稳定性。

5. 数据清洗

处理异常值：识别并处理数据中的异常值，这些异常值可能会对模型训练产生不利影响。
去重：删除重复的数据记录，以避免模型训练时的过拟合问题。

6. 数据划分

训练集、验证集和测试集：通常需要将数据划分为训练集、验证集和测试集，分别用于模型训练、参数调优和性能评估。
随机划分：数据划分应随机进行，以确保训练集、验证集和测试集具有相似的数据分布。

二、对数据进行特征编码

鉴于以上对训练数据的要求，所以，我们需要对训练数据进行特征编码，原因主要包括如下：

处理非数值特征：机器学习算法通常要求输入是数值形式，而现实世界的数据往往包含非数值的特征，如文本或类别标签。特征编码可以将这些非数值特征转换为数值形式，使得它们可以被机器学习算法处理。
提高模型性能：适当的特征编码可以帮助模型更好地理解数据，从而提高模型的性能。例如，对于有序的分类变量，使用适当的编码方式可以保留其顺序关系，这对于模型学习是有帮助的。
避免引入偏差：不恰当的特征编码可能会引入偏差，影响模型的准确性。例如，如果简单地将类别标签映射为整数（如将“红”、“绿”、“蓝”映射为0、1、2），模型可能会错误地认为这些整数之间存在大小关系，从而引入不必要的偏差。
处理缺失值：特征编码还可以用于处理缺失值。例如，可以使用独热编码（One-Hot Encoding）为缺失值创建一个单独的类别，或者使用标签编码（Label Encoding）将缺失值映射为一个特定的数值。
统一数据格式：在进行特征交叉或应用某些特定的机器学习算法时，可能要求所有特征都是数值型。特征编码可以确保数据满足这一要求。

特征编码是机器学习中一个重要的数据预处理步骤，它可以帮助我们将非数值特征转换为数值形式，提高模型的性能，并避免引入不必要的偏差。在scikit-learn中，可以使用LabelEncoder、OneHotEncoder等工具进行特征编码。

三、标签编码 LabelEncoder

LabelEncoder是scikit-learn（sklearn）库中的一个预处理工具，主要用于将类别变量（如字符串标签或离散的整数标签）转换为从0到n_classes-1的整数。这种转换对于许多机器学习算法是必要的，因为这些算法通常要求输入数据是数值型的。以下是LabelEncoder的详细说明及一个完整示例。

LabelEncoder详细说明

用途：
- 将分类标签转换为数值标签，便于机器学习算法处理。
- 适用于目标变量（y）的编码，而不是输入特征（X）的编码。
主要方法：
- fit(y): 计算类别标签的唯一值，并学习映射关系。不返回任何值，但会更新LabelEncoder对象内部的映射表。
- transform(y): 根据fit方法学到的映射关系，将给定的类别标签转换为整数标签。返回转换后的整数数组。
- fit_transform(y): fit和transform的组合，先学习映射关系，然后应用转换。返回转换后的整数数组。
- inverse_transform(y): 将整数标签转换回原始的类别标签。这在预测或结果解释时非常有用。
属性：
- classes_: 保存每个类别的标签，即映射表中类别到整数的映射关系。

完整示例

假设我们有一个简单的数据集，其中包含一些动物类别，我们需要将这些类别转换为数值型标签，以便在机器学习模型中使用。

from sklearn.preprocessing import LabelEncoder

# 原始类别数据
data = ['cat', 'dog', 'bird', 'cat', 'dog', 'fish']

# 创建LabelEncoder对象
le = LabelEncoder()

# 拟合LabelEncoder对象并转换数据
encoded_data = le.fit_transform(data)

# 输出转换后的数据
print("Encoded data:", encoded_data)
# 输出: Encoded data: [0 1 2 0 1 3]

# 查看类别与整数的映射关系
print("Classes:", le.classes_)
# 输出: Classes: ['bird' 'cat' 'dog' 'fish']
# 注意：这里的顺序可能与输入数据的顺序不同，LabelEncoder会根据字典序对类别进行排序。

# 将整数标签转换回原始类别标签
decoded_data = le.inverse_transform(encoded_data)

# 输出转换回的数据
print("Decoded data:", decoded_data)
# 输出: Decoded data: ['bird' 'cat' 'dog' 'bird' 'cat' 'fish']

在这个示例中，我们首先导入了LabelEncoder类，并创建了一个LabelEncoder对象le。然后，我们使用fit_transform方法将原始类别数据data转换为整数标签encoded_data。通过打印le.classes_，我们可以看到类别与整数的映射关系。最后，我们使用inverse_transform方法将整数标签转换回原始类别标签decoded_data，以验证转换的正确性。

需要注意的是，LabelEncoder在处理类别标签时，会根据类别标签的字典序进行排序，并据此分配整数标签。因此，在某些情况下，如果类别标签的顺序对模型性能有影响，可能需要谨慎使用LabelEncoder或考虑其他编码方法（如OrdinalEncoder，如果类别之间存在自然顺序的话）。此外，如果数据集中存在未知类别（即在fit过程中未出现过的类别），transform方法将无法对这些类别进行编码，并可能引发错误。在实际应用中，需要根据具体情况选择合适的编码方法。

四、独热编码 OneHotEncoder

OneHotEncoder是scikit-learn（sklearn）库中用于处理分类数据的一个重要预处理工具。它可以将分类变量（通常是字符串或整数）转换为独热编码（One-Hot Encoding）形式，这是一种常用的数据编码方式，特别适用于机器学习模型。以下是OneHotEncoder的详细说明及一个完整示例。

OneHotEncoder详细说明

用途：
- 将分类特征转换为独热编码形式，即将每个类别的值转换为一个只有一个元素为1（表示该类别），其余元素为0的二进制向量。
- 适用于输入特征（X）的编码，而不是目标变量（y）的编码。
主要参数：
- categories='auto'：指定每个特征的类别。如果设置为’auto’，则每个特征的类别将自动从训练数据中推断。也可以手动指定每个特征的类别列表。
- sparse_output=True：指定编码后的输出格式。默认为True，表示输出稀疏矩阵格式，这有助于节省内存和计算资源。如果设置为False，则输出密集数组格式。
- dtype=<class 'numpy.float64'>：指定输出数组的数据类型。
- handle_unknown='error'：指定遇到未知类别时的处理方式。默认为’error’，表示抛出错误。也可以设置为’ignore’，表示忽略未知类别。
主要方法：
- fit(X): 学习训练数据中的类别，并建立映射关系。不返回任何值，但会更新OneHotEncoder对象内部的映射表。
- transform(X): 根据fit方法学到的映射关系，将给定的类别特征转换为独热编码形式。返回转换后的数组或稀疏矩阵。
- fit_transform(X): fit和transform的组合，先学习映射关系，然后应用转换。返回转换后的数组或稀疏矩阵。

注意事项

类别数量：当分类特征的类别数量很多时，独热编码会导致特征空间急剧增加，这可能会增加模型的复杂性和训练时间，甚至引发过拟合。在这种情况下，可以考虑使用PCA等方法进行降维。
稀疏性：默认情况下，OneHotEncoder输出的是稀疏矩阵。这对于许多机器学习算法来说是有利的，因为它们可以有效地处理稀疏输入。然而，如果你需要将编码后的数据与其他非稀疏数据合并，或者你的模型不支持稀疏输入，你可能需要将sparse参数设置为False。
未知类别：默认情况下，如果transform方法遇到了在fit阶段未见过的类别，OneHotEncoder会抛出错误。你可以通过设置handle_unknown参数为'ignore'来避免这种情况，但这样做会导致未知类别的特征在所有维度上都被编码为0。
特征选择：在应用独热编码后，可能需要进行特征选择以减少维度和冗余。
模型兼容性：并非所有机器学习模型都需要独热编码。一些基于树的模型（如决策树和随机森林）可以直接处理分类特征，而无需进行独热编码。因此，在选择是否使用独热编码时，需要考虑你的模型类型和需求。

完整示例

假设我们有一个简单的数据集，其中包含一些动物类别，我们需要将这些类别特征转换为独热编码形式。

from sklearn.preprocessing import OneHotEncoder
import pandas as pd
import numpy as np

# 创建包含动物类别的DataFrame
data = pd.DataFrame({
    'animal': ['cat', 'dog', 'bird', 'fish']
})

# 将DataFrame的列转换为numpy数组，并reshape为二维数组（样本数，特征数）
# 注意：OneHotEncoder要求输入数据为二维数组
X = data['animal'].values.reshape(-1, 1)

# 创建OneHotEncoder对象，并指定sparse_output=False以输出密集数组
encoder = OneHotEncoder(sparse_output=False)

# 拟合OneHotEncoder对象并转换数据
encoded_data = encoder.fit_transform(X)

# 输出转换后的数据
print("Encoded data:\n", encoded_data)
# 输出类似于：
# [[0. 0. 1. 0.]
#  [0. 1. 0. 0.]
#  [1. 0. 0. 0.]
#  [0. 0. 0. 1.]]

# 查看类别与独热编码的映射关系
# 注意：OneHotEncoder没有直接提供查看映射关系的属性，但可以通过fit方法后的encoder对象间接推断
# 例如，可以通过查看encoder.categories_属性来获取每个特征的类别列表
print("Categories:", encoder.categories_)
# 输出：Categories: [array(['bird', 'cat', 'dog', 'fish'], dtype=object)]
# 这表明'animal'特征被编码成了4个类别的独热编码

在这个示例中，我们首先创建了一个包含动物类别的DataFrame。然后，我们将DataFrame的列转换为numpy数组，并使用reshape方法将其转换为二维数组形式，以满足OneHotEncoder的输入要求。接着，我们创建了一个OneHotEncoder对象，并指定sparse=False以输出密集数组格式的编码结果。最后，我们使用fit_transform方法将动物类别特征转换为独热编码形式，并打印了转换后的数据和类别与独热编码的映射关系（尽管映射关系不是直接通过属性获取的，但可以通过encoder对象间接推断）。

五、中文编码 jieba TfidfVectorizer

要对中文编码，可以使用jieba对中文进行分词，然后使用TfidfVectorizer进行向量化。

jieba库详解

1. 简介

jieba（结巴分词）是一个流行的开源中文分词工具，基于Python语言实现，旨在提供一个简单、高效的中文分词解决方案。它支持多种分词模式和算法，广泛应用于中文文本处理、信息检索、自然语言处理等领域。

2. 功能特点

中文分词：jieba能够将连续的中文文本切分成词语或词汇单位，是分词任务的基础步骤，对于词频统计、文本分类、情感分析等任务至关重要。
多种分词模式：
- 精确模式：试图将文本切分成最精确的词汇单位，适用于需要高精度分词的任务。
- 全模式：会尽可能多地切分文本，提取所有可能的词语，适用于信息检索等任务。
- 搜索引擎模式：在精确模式的基础上，对长词再次进行切分，提高召回率，适用于搜索引擎等应用。
自定义词典：用户可以创建自定义词典，确保特定词汇被正确切分，这对于处理特定行业或领域的文本非常有用。
关键词提取：jieba提供了关键词提取功能，帮助用户识别文本中的关键词，有助于文本摘要和信息检索等任务。
词性标注：能够将分词结果进行词性标注，帮助用户了解每个词语的词性，更好地理解文本的含义和语法结构。

3. 使用方法

安装jieba库：使用pip工具在命令行中安装，命令为pip install jieba。
导入jieba库：在Python脚本中导入jieba库，使用import jieba。
对中文文本进行分词：使用jieba库的cut()函数对中文文本进行分词，并可以设置分词模式。

TfidfVectorizer详解

1. 简介

TfidfVectorizer是Python中用于将文本转换为向量表示的工具，属于scikit-learn库的一部分。它使用TF-IDF（Term Frequency-Inverse Document Frequency）算法来计算每个单词在文本中的重要性，并将其转换为向量形式。该工具在自然语言处理和文本挖掘中非常有用，可用于文本分类、聚类、信息检索等任务。

2. 功能特点

TF-IDF算法：通过结合词频（TF）和逆文档频率（IDF）来计算单词的重要性。TF表示某单词在某文本中的出现次数与该文本中所有词的总数的比值；IDF表示语料库中包含某单词的文本数的倒数的对数。
词频矩阵转换：首先将文本转换为词频矩阵，然后将其转换为TF-IDF表示形式。
停用词过滤：支持停用词过滤，帮助去除文本中的无关词汇，提高文本处理效果。
词汇表选择和词汇重要性权重：允许用户自定义词汇表和词汇的重要性权重。

3. 使用方法

安装scikit-learn库：使用pip工具在命令行中安装，命令为pip install -U scikit-learn。
导入TfidfVectorizer：在Python脚本中导入TfidfVectorizer，使用from sklearn.feature_extraction.text import TfidfVectorizer。
创建TfidfVectorizer对象：实例化TfidfVectorizer对象，并设置相关参数。
将文本转换为TF-IDF特征矩阵：使用fit_transform()方法将文本数据转换为TF-IDF特征矩阵。

综合应用示例

假设我们有一组中文文本数据，希望对其进行分词、转换为TF-IDF特征矩阵，并进行进一步分析。我们可以先使用jieba库进行中文分词，然后使用TfidfVectorizer将分词结果转换为TF-IDF特征矩阵。具体步骤如下：

使用jieba库对中文文本进行分词。
将分词结果转换为适合TfidfVectorizer处理的格式（通常是列表的列表，每个内部列表代表一个文档的词语列表）。
实例化TfidfVectorizer对象，并设置相关参数（如停用词列表、最大特征数等）。
使用TfidfVectorizer的fit_transform()方法将分词结果转换为TF-IDF特征矩阵。
对TF-IDF特征矩阵进行进一步分析，如文本分类、聚类等。

示例一：使用`jieba`对中文分词，并使用`TfidfVectorizer`做向量化

以下是一个完整的示例，展示了如何使用jieba进行中文分词，并使用scikit-learn中的TfidfVectorizer计算TF-IDF值。

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

# 准备中文文本数据
texts = [
    "我爱北京天安门",
    "天安门上太阳升",
    "我们在天安门广场相聚"
]

# 使用jieba进行中文分词
texts_cut = [" ".join(jieba.cut(text)) for text in texts]

# 使用TfidfVectorizer进行向量化
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texts_cut)

# 查看特征名称（词汇）
print("特征名称（词汇）:", vectorizer.get_feature_names_out())

# 查看TF-IDF矩阵
print("TF-IDF矩阵:\n", X.toarray())

运行这段代码，你将得到如下输出：

特征名称（词汇）: ['上', '天安门', '天安门广场', '太阳', '升', '我们', '在', '相聚', '爱', '北京', '广场']
TF-IDF矩阵:
 [[0.         0.46979139 0.         0.         0.         0.
  0.         0.         0.58028582 0.58028582 0.        ]
 [0.5        0.         0.         0.57735027 0.57735027 0.
  0.         0.         0.         0.         0.        ]
 [0.         0.5        0.57735027 0.         0.         0.5
  0.57735027 0.57735027 0.         0.         0.        ]]

在这个输出中，特征名称（词汇）显示了所有在文本中出现的词汇，而TF-IDF矩阵则显示了每个文本中词汇的TF-IDF值。例如，在第一段文本中，“天安门”的TF-IDF值是0.46979139，“爱”的TF-IDF值是0.58028582，以此类推。

示例二：中文分词后，替换到原数组

这里假设二维数组data第idx列是中文（data[idx]），要将该列的中文进行编码，并将编码后的数据替换到原数组中


def castCn2Num(idx, data):
    ## 中文处理
    # 使用jieba进行分词
    # 将分词结果转换回字符串，用空格分隔
    processed_texts = [' '.join(jieba.cut(text)) for text in data[:, idx]]
    # 实例化TF-IDF特征提取器
    vectorizer = TfidfVectorizer()
    # 拟合和转换训练数据
    X_train_tfidf = vectorizer.fit_transform(processed_texts)
    X_dense = X_train_tfidf.toarray()
    # 将二维数组转换为一维数组
    X_flat = np.sum([array[:] for array in X_dense], axis=1)
    data[:, idx] = X_flat
    # print(data)
    # 中文处理 end