pd.get_dummies

最新推荐文章于 2025-03-13 17:41:46 发布

朋也透william

最新推荐文章于 2025-03-13 17:41:46 发布

阅读量1.1k

点赞数 5

文章标签： pandas

本文链接：https://blog.csdn.net/weixin_44012667/article/details/140171893

版权

pd.get_dummies 是 pandas 库中的一个函数，用于将分类变量（categorical data）转换为虚拟变量（dummy variables）或指示变量（indicator variables）。这些虚拟变量常用于机器学习和统计分析中，因为许多模型只能处理数值型数据，而不能直接处理分类数据。

用法

pd.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

参数

data：用于生成虚拟变量的数据，可以是 pandas DataFrame 或 Series。
prefix：前缀字符串或前缀字符串的字典，用于生成虚拟变量列的名称。如果传入字典，键是列名，值是前缀。
prefix_sep：前缀和分类变量值之间的分隔符，默认为下划线 _。
dummy_na：是否为缺失值生成虚拟变量，默认为 False。
columns：选择用于生成虚拟变量的列。如果没有传入列名，所有分类变量列都会被处理。
sparse：是否返回稀疏格式，默认为 False。
drop_first：是否删除第一个类别的虚拟变量，以避免多重共线性（多重共线性问题在回归分析中尤为重要）。
dtype：虚拟变量的类型。

返回值

返回一个 DataFrame，其中包含原始数据中的所有非分类变量列和生成的虚拟变量列。

示例

假设我们有一个包含颜色和性别数据的 DataFrame：

import pandas as pd

df = pd.DataFrame({
    'color': ['red', 'blue', 'green', 'blue', 'red'],
    'gender': ['male', 'female', 'female', 'male', 'female']
})

我们可以使用 pd.get_dummies 将这些分类变量转换为虚拟变量：

dummies = pd.get_dummies(df)
print(dummies)

"""
   color_blue  color_green  color_red  gender_female  gender_male
0           0            0          1              0            1
1           1            0          0              1            0
2           0            1          0              1            0
3           1            0          0              0            1
4           0            0          1              1            0
"""

我们也可以选择只对某些列进行转换，并且可以为生成的虚拟变量列添加前缀：

dummies = pd.get_dummies(df, columns=['color'], prefix='col')
print(dummies)

"""
   gender  col_blue  col_green  col_red
0    male         0          0        1
1  female         1          0        0
2  female         0          1        0
3    male         1          0        0
4  female         0          0        1
"""

其他说明

大多数机器学习模型（例如线性回归、决策树、神经网络等）只能处理数值型数据。在处理包含分类变量的数据集时，可以使用 pd.get_dummies 将分类变量转换为数值型虚拟变量。
统计分析：在回归分析中，分类变量需要转换为虚拟变量，以便包含在回归模型中。
数据预处理：在进行数据清理和预处理时，将分类变量转换为虚拟变量是一项常见操作，以确保数据的一致性和模型的兼容性。

总之，pd.get_dummies 是一个强大且常用的工具，用于将分类数据转换为数值型数据，从而使其适用于各种分析和建模任务。