get_dummies函数介绍

最新推荐文章于 2025-07-30 21:33:20 发布

mengke_yu

最新推荐文章于 2025-07-30 21:33:20 发布

阅读量2.1w

点赞数 23

CC 4.0 BY-SA版权

分类专栏： pandas库

本文链接：https://blog.csdn.net/ymkfjuyhbh/article/details/99730972

pandas库专栏收录该内容

1 篇文章

订阅专栏

pd.get_dummies相当于onehot编码，常用与把离散的类别信息转化为onehot编码形式。

官方文档：

def get_dummies(data, 
                prefix=None, 
                prefix_sep='_', 
                dummy_na=False,
                columns=None,
                sparse=False,
                drop_first=False,
                dtype=None)

Demo：

import pandas as pd
 
df = pd.DataFrame([
    ['green', 'A'],
    ['red', 'B'],
    ['blue', 'A']])
 
df.columns = ['color', 'class']
#print(df)

输出：
在这里插入图片描述

df=pd.get_dummies(df,columns=["color"])
print(df)

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mengke_yu

关注关注

23
点赞
踩
48

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Pandas中的get_dummies()函数实战应用详解

这家伙很懒，什么都没有留下

05-13

5578

独热编码，也被称为一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位来表示，并且在任意时候只有一位有效。在数据分析中，这通常意味着为每个类别创建一个新的二进制列，如果原始数据中的某个实例属于该类别，则在新列中标记为1，否则为0。Pandas的get_dummies()函数是处理类别型变量的强大工具，它可以将类别型变量转换为独热编码形式，方便后续的数据分析和机器学习算法应用。在使用该函数时，需要注意处理缺失值、添加前缀、处理重复值、指定要转换的列以及处理稀疏矩阵等问题。

pandas.get_dummies函数：把离散信息转换成onehot矩阵

小龙在线

12-02

552

pandas.get_dummies函数用来把可以分类信息转换成0和1矩阵。

1 条评论您还未登录，请先登录后发表或查看评论

快速进行OneHot编码——get_dummies()函数

qq_51167531的博客

03-29

8426

当我们的数据中出现的离散的类别信息时，我们通常将其转化为onehot编码形式，以便于对于我们的模型能有更好的效果。此处主要介绍的是pandas库中的一个函数——get_dummies()，它能直接将我们需要转换的列直接进行转换，下面来具体介绍： 1.参数说明 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False) ..

get_dummies（）用法

BIT_mk的博客

07-19

5344

是 Pandas 库中的一个函数，用于进行One-hot编码，将分类变量转换为虚拟变量。函数将返回一个新的 DataFrame 对象，其中包含转换后的虚拟变量。

pd.get_dummies()

Recursions的博客

01-08

3585

是 Pandas 库中用于独热编码（One-Hot Encoding）的函数。它的作用是将分类（离散）变量的每个不同取值都拓展为一个新的二进制特征（0或1），从而方便机器学习模型处理。列被独热编码为三个新的二进制列。在原始数据的每一行中，只有原始颜色对应的列为1，其余列为0。: 要进行独热编码的列的名称，如果指定，则只对这些列进行操作。: 生成的独热编码列的前缀和原始列名之间的分隔符。: 是否删除第一个独热编码列，以避免共线性问题。: 是否为原始数据中的缺失值生成独热编码列。: 生成的独热编码列的前缀。

get_dumines() 函数,用于将分类变量转换为哑变量

2301_81133727的博客

11-17

755

shape_circle、shape_square 和 shape_unknown 是从 shape 列生成的哑变量列，分别表示形状为圆形、正方形和未知的形状。color_blue、color_red 和 color_unknown 是从 color 列生成的哑变量列，分别表示颜色为蓝色、红色和未知的颜色。函数可以将DataFrame中的分类变量（通常是字符串类型）转换为哑变量，每个类别对应一个哑变量列，其中包含1和0的值，表示该类别是否出现。每一列中的1表示对应的类别在该行中出现，0表示没有出现。

Python Pandas.get_dummies函数解析与实战教程

最新发布

皓月照山川的博客

07-30

1108

从一行代码的便捷转换到生产环境中的致命陷阱，pandas.get_dummies 是数据科学家工具箱中一把锋利但需要技巧的双刃剑。本教程将带你深入其核心，规避最常见的错误，掌握性能优化的秘诀，并深度对比其与 sklearn.preprocessing.OneHotEncoder 的优劣。

【Pandas】pandas get_dummies

weixin_39648905的博客

12-07

1125

`pandas.get_dummies` 是 Pandas 库中的一个函数，它用于将分类变量（categorical variables）转换为哑变量（dummy/indicator variables），也就是将分类变量的每一个类别映射为一个新的列，这些列中只有 0 和 1 两种取值，表示该记录是否属于该类别。下面是对 `pandas.get_dummies` 每个参数的详细介绍，以及示例和结果。

pd.get_dummies，pandas中getget_dummies的用法，python中处理离散值的方法，将文字特征转换成数字特征的方法

一起躺躺躺的博客

05-06

3853

需要用到pandas这个包，调用请提前下载这个就是用独热编码来替换离散值特征。例如，“MSZoning”包含值“RL”和“Rm”我们将创建两个新的指示器特征“MSZoning_RL”和“MSZoning_RM”，其值为0或1。根据独热编码，如果“MSZoning”的原始值为“RL”，则：“MSZoning_RL”为1，“MSZoning_RM”为0。首先假如一个数据集有六个样本，每个样本两种特征，数据保存在‘111.csv’中，其中feature1是文字特征，分别为“bak” “bif” “ni

【Pandas】pandas.get_dummies详解与实战应用：类别数据的独热编码神器，用于将类别变量转换为独热编码（one-hot encoding），即将每个类别值转换为一个新的列

科技改变人类，技术成就未来

08-04

1398

在数据分析和处理过程中，尤其是机器学习模型构建时，常常需要将类别特征转换为数值特征。pandas.get_dummies 是 Pandas 提供的一个函数，用于将类别变量转换为独热编码（one-hot encoding），即将每个类别值转换为一个新的列。本文将详细介绍 pandas.get_dummies 的用途和用法，包括其参数详解、示例代码以及进阶使用技巧。

pd.get_dummies

weixin_44012667的博客

07-04

1422

是pandas库中的一个函数，用于将分类变量（categorical data）转换为虚拟变量（dummy variables）或指示变量（indicator variables）。这些虚拟变量常用于机器学习和统计分析中，因为许多模型只能处理数值型数据，而不能直接处理分类数据。

Pandas-getdummies

m0_69378371的博客

04-21

755

get_dummies() 方法主要用于将指定的 DataFrame 或 Series 中的分类变量转换为 one-hot 编码的形式，生成一个新的 DataFrame。其中，gender_Male 和 gender_Female 分别表示了性别为男性和女性的情况，取值为 1 表示该样本的性别为相应的类别，取值为 0 表示不是该类别。columns: 指定要进行编码的列，如果不指定，则对所有的 object 或 category 类型的列进行编码。dtype: 指定编码后的数据类型，默认为 None。

pandas中的get_dummies()函数

fly_Xiaoma的博客

04-05

3445

数据集中离散特征的编码分为两种情况：离散特征的取值之间没有大小的意义（特征之间的欧式距离相同），比如color:[red,green]，可以采用one-hot的方法离散特征的的取值有大小的意义（特征之间的欧式距离不同），比如size：[X,XL,XXL]，可以采用数值的映射{X:1,XL:2,XXL3}，这种方式就是LabelEncoder()的思想对离散特征的处理可以采用两种方式...

【pandas】get_dummies函数

这个人很蓝

05-17

383

pandas的get_dummies函数类似于one-hot编码 import pandas as pd s = pd.Series(list('abca')) pd.get_dummies(s) >>> a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 s1 = ['a', 'b', np.nan] pd.get_dummies(s1) >>> a b 0 1 0 1 0 1 2 0 0 ...

pandas get_dummy

热门推荐

低端博客

12-10

1万+

另一种常用于统计建模或机器学习的转换方式是：将分类变量（categorical variable）转换为“哑变量矩阵”（dummy matrix）或“指标矩阵”（indicator matrix）。如果DataFrame的某一列中含有k个不同的值，则可以派生出一个k列矩阵或DataFrame（其值全为1和0）。pandas有一个get_dummies函数可以实现该功能（其实自己动手做一个也不难）。

pandas.get_dummies函数用法详细解答（实践）

studyvcmfc的专栏

10-19

1228

pandas.get_dummies函数用法详细解答（实践） pandas.get_dummies函数用法详细解答（实践）_skywf的博客-CSDN博客

Pandas的get_dummies 实例的应用

raozhizhenshuai的博客

11-24

2670

Pandas的get_dummies欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准

pandas.get_dummy

qq_30868235的博客

05-20

875

独热向量编码/One-Hot-Encoding (Dummy variables) 颜色：红、黄、紫[1,0,0] [0,1,0] [0,0,1] LR = theta*X 红色蓝色黄色紫色咖啡色白色… => 红色蓝色黄色 rare sklearn OneHotEncoder；pandas get_dummies# create a dataframe with an inte...

get_dummies函数

03-29

get_dummies函数是一个用于将分类变量转换为数值变量的函数。该函数将分类变量转换成哑变量（dummy variable）或指示变量（indicator variable），并将其编码为0或1。这个函数可以将分类变量转换为数值变量，以便于进行机器学习算法的处理。 get_dummies函数的语法格式如下： ```python pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) ``` 参数说明： - data：需要转换的数据； - prefix：指定新的列名前缀； - prefix_sep：指定新的列名前缀的分隔符； - dummy_na：是否将缺失值也转换为哑变量，默认为False； - columns：指定需要转换的列； - sparse：是否以稀疏矩阵的形式返回，默认为False； - drop_first：是否删除第一个哑变量列，默认为False； - dtype：指定返回的数据类型。示例代码： ```python import pandas as pd data = pd.DataFrame({'color': ['red', 'green', 'blue', 'green', 'red']}) # 将color列转换为哑变量 data_dummies = pd.get_dummies(data['color'], prefix='color') # 将哑变量添加到原数据集中 data = pd.concat([data, data_dummies], axis=1) print(data) ``` 输出结果： ``` color color_blue color_green color_red 0 red 0 0 1 1 green 0 1 0 2 blue 1 0 0 3 green 0 1 0 4 red 0 0 1 ``` 上面的示例代码中，首先定义了一个包含color列的数据集，然后使用get_dummies函数将color列转换为哑变量，最后将哑变量添加到原数据集中。