数据挖掘(三)特征构造

前言

基于国防科技大学 丁兆云老师的《数据挖掘》课程
数据挖掘
数据挖掘(一)数据类型与统计
数据挖掘(二)数据预处理

3、特征构造

在这里插入图片描述

3.1 基本特征构造方法:

3.1.1 运用已有知识直接构造:

一般是根据原有特征挖掘新的更有用的特征,比如给出了质量和体积,则可以构造出密度特征

3.1.2 其它常见技巧:

常见构造特征技巧及运用场景:

在这里插入图片描述

3.1.3 时间类型数据特征构造:

时间特征(Time-Based Features):
如果数据中包含时间信息,可以从中提取各种时间特征,如年、月、日、季节、工作日、周末等。这些时间特征可以帮助模型捕捉到时间的周期性和趋势性,对于时间序列数据或具有时间相关性的数据集特别有用。

例:

在这里插入图片描述

在这里插入图片描述

3.2 离散数据进行哑编码:

哑编码(Dummy Encoding)和独热编码(One-Hot Encoding)是常用的特征编码方法,用于将分类变量转换为数值表示。它们在不同的情况下有不同的适用性,选择哪种编码方法取决于数据的特点和机器学习算法的需求。

  1. 哑编码(Dummy Encoding):
    哑编码是一种将分类变量转换为二进制(0和1)表示的编码方法。对于具有k个类别的分类变量,哑编码会创建k-1个二进制特征(或称为哑变量),并用0和1表示类别的存在与否。其中,k-1个特征中的每一个对应于一个类别,而最后一个类别作为参考类别,不需要单独编码。哑编码的主要优点是编码后的特征具有较低的维度,适用于线性模型和一些需要较少特征的机器学习算法。
  2. 独热编码(One-Hot Encoding):
    独热编码是一种将分类变量转换为二进制向量表示的编码方法。对于具有k个类别的分类变量,独热编码会创建k个二进制特征,每个特征对应一个类别,并且只有一个特征的值为1,其余特征的值为0。独热编码的优点是它能够保留所有类别之间的相互独立性,适用于大多数机器学习算法,特别是需要考虑类别之间距离或关系的算法,如决策树、支持向量机等。
import pandas as pd

# 创建包含分类变量的数据集
data = pd.DataFrame({'颜色': ['红', '蓝', '绿', '红', '绿']})

# 哑编码
dummy_encoded = pd.get_dummies(data['颜色'], prefix='颜色')
print(dummy_encoded)

# 独热编码
one_hot_encoded = pd.get_dummies(data['颜色'], prefix='颜色', drop_first=True)
print(one_hot_encoded)
颜色_红  颜色_蓝  颜色_绿
0      1      0      0
1      0      1      0
2      0      0      1
3      1      0      0
4      0      0      1

   颜色_蓝  颜色_绿
0      0      0
1      1      0
2      0      1
3      0      0
4      0      1

例题:

1.类别无序:

在这里插入图片描述

采用哑编码或者onehot编码

2.类别有序:

在这里插入图片描述

直接映射到[0,m]

  • 8
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
数据挖掘是指从大量数据中发掘出有用的信息和知识的过程,而特征工程则是在数据挖掘中的一个关键步骤。特征工程是指通过对原始数据进行预处理、特征选择、特征变换等方法,提取出适合用于数据挖掘算法建模的特征。 在数据挖掘任务中,特征工程非常重要。一个好的特征工程可以帮助我们更好地发现模型中的规律和关联。而在特征工程中,CSDN(中国最大的IT社区)提供了大量的资源和教程,可以帮助我们理解和应用各种特征工程的方法和技巧。 在CSDN中,我们可以找到关于特征选择、特征提取、特征构造等方面的技术文章和教程。这些文章和教程详细介绍了各种常用的特征工程方法和算法,如主成分分析、线性判别分析、信息增益、互信息等。同时,CSDN还提供了一些常用的特征工程工具,如sklearn、pandas等,方便我们在实际应用中进行特征工程处理。 通过CSDN的学习和实践,我们可以更好地了解特征工程的重要性,学习到各种特征工程的方法和技巧,并能够灵活应用到实际的数据挖掘任务中。在实践中,我们可以根据不同的数据集和任务需求,选择合适的特征工程方法,处理原始数据,提取有用的特征,为后续的模型构建和分析做好准备。 总之,CSDN为我们提供了丰富的特征工程资源和技术支持,通过学习和应用这些资源,我们可以在数据挖掘中更好地进行特征工程,提高模型的准确性和效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值